Тип публикации: статья из журнала
Год издания: 2025
Идентификатор DOI: 10.5840/eps202562113
Ключевые слова: conceptualization of space, topological semantics, artificial cognitive agent, natural cognitive agent, figure and background, large language models, концептуализация пространства, топологическая семантика, искусственный когнитивный агент, естественный когнитивный агент, фигура и фон, большие языковые модели
Аннотация: Статья посвящена описанию различий в концептуализации пространства, наблюдаемых у информантов, генеративных языковых моделей и моделей компьютерного зрения, способных генерировать текст описания «увиденного». Мы используем понятие когнитивного агента и обосновываем различение «естественный vs искусственный когнитивный агент»: под пПоказать полностьюервым понимается человек, под вторым - модель ИИ, способная принимать решения и выполнять задачи адекватно заданной ситуации. Цель исследования - сравнить способы осмысления местоположения объекта в пространстве, в том числе относительно других объектов, у естественных когнитивных агентов (ЕКА) и искусственных когнитивных агентов (ИКА) двух типов: больших языковых моделей, способных генерировать текст, и моделей, созданных для решения задачи Image to Text. Основными методами выступили метод лингвистического эксперимента и метод семантического описания на основе теории топологической семантики Л. Талми. В качестве стимульного материала использовались шесть картин из коллекции Государственного Эрмитажа, разделенные на три группы: портреты, монофигурные картины на мифологическую или религиозную тематику, многофигурные композиции. Участниками экспериментов выступили: 63 информанта (Mean age = 19,1, 48 девушек, 15 юношей), 5 мультиязычных генеративных моделей, 6 моделей Image to Text, основанных на технологии компьютерного зрения и способных генерировать описания распознанных изображений на английском языке. Используя типологию конфигурационных топологических схем и схем типа «фигура - фон» в концепции топологической семантики Л. Талми, мы сравнили способы осмысления пространства, на которые опираются а) большие языковые модели; б) модели Image to Text и в) информанты. В результате мы сформулировали ряд выводов, главный из которых заключается в том, что ЕКА отличаются от ИКА своей способностью интегрировать процесс концептуализации объекта в пространстве в другие когнитивные процессы: распознавания сущности и категоризации, механизма внимания, осознания причинно-следственных связей. ИКА только учатся такой интегративности и взаимной координации, например, когда генеративные модели концептуализируют те объекты, в которых они не уверены, поскольку это продукты галлюцинирования, как объекты с нечеткими границами, а модели Image to Text объединяют в единый неоднородный объект человека и наиболее яркую оригинальную деталь его окружения, поскольку «считают», что это самое важное для задач описания изображения. The article is devoted to the description of the differences in the conceptualization of space observed in informants, large language models and computer vision models capable of generating a text describing what they “saw”. We use the concept of a cognitive agent and substantiate the distinction between “natural vs artificial cognitive agent”: the first is understood as a person, the second is an AI model capable of making decisions and performing tasks adequately in a given situation. The aim of the study is to compare the ways of understanding the location of an object in space in natural cognitive agents and artificial cognitive agents of two types: large language models and models created for Image to Text task. The main methods are the method of linguistic experiment and the method of semantic description based on the theory of topological semantics by L. Talmi. As an incentive material, six paintings from the collection of the State Hermitage Museum were used, divided into three groups: portraits, monofigure paintings on mythological or religious themes, and multifigure compositions. The participants of the experiments were: 63 informants (Mean age = 19.1, 48 females, 15 males), 5 LLMs, 6 Image to Text models based on computer vision technology and capable of generating descriptions of recognized images in English. Using the typology of configurational topological schemes and “figure - background” type schemes, we compared the ways of understanding space that the models rely on. As a result, we have formulated a number of conclusions, the most important of which is that natural cognitive agents differ from artificial cognitive agents in its ability to integrate the process of conceptualization of an object in space into other cognitive processes: entity recognition and categorization, attention mechanisms, awareness of cause-and-effect relationships. Artificial cognitive agents are only learning such integrativity and mutual coordination, for example, when generative models conceptualize those objects in which they are not sure, since these are products of hallucination, as objects with fuzzy boundaries, and Image to Text models combine into a single heterogeneous human object and the most striking original detail of its environment, because they “believe” that this is the most important thing for description tasks.
Журнал: Эпистемология и философия науки
Выпуск журнала: Т. 62, № 1
Номера страниц: 170-197
ISSN журнала: 1811833X
Место издания: Москва
Издатель: Институт философии РАН