Written vs generated text: “naturalness” as a textual and psycholinguistic category

Описание

Тип публикации: статья из журнала

Год издания: 2024

Идентификатор DOI: 10.18413/2313-8912-2024-10-2-0-4

Ключевые слова: Controlled generation, naturalness, text category, Psycholinguistic category, Metrics of text complexity, experiment, russian language, Контролируемая генерация, естественность, текстовая категория, Психолингвистическая категория, Метрики лингвистической сложности, эксперимент, русский язык

Аннотация: In the context of the development of text generation technologies, the opposition “naturalness - unnaturalness of text” has been transformed into a new dichotomy: “naturalness - artificiality”. The aim of this article is to investigate the phenomenon of naturalness in this context from two perspectives: analyzing the linguistic chaПоказать полностьюracteristics of a natural text against a generated (artificial) text and systematizing introspective perceptions of Russian native speaker informants as to what a “natural” text should be like and how it should differ from a generated text. The material for the study was a parallel corpus of film reviews in Russian, consisting of two subcorpora: reviews written by people and those generated by a large language model based on prompts, which are the beginnings of reviews, from the first subcorpus. The following methods were applied for the comparative analysis of the two subcorpora: computer-assisted text processing for calculating the values of 130 metrics of text linguistic complexity, psycholinguistic experiment, expert text analysis, contrastive analysis. As a result, it was determined that from the point of view of their own linguistic characteristics, “natural” texts differ from generated texts mainly by greater flexibility of syntactic structure, allowing both omission or reduction of structures and redundancy, as well as by slightly greater lexical variability. Naturalness as a psycholinguistic category is related to the informants’ autostereotypical ideas about the cognitive characteristics of people as a species. The analysis of texts erroneously attributed by informants (generated, labelled as natural and vice versa) showed that a number of characteristics of this autostereotype are overestimated by informants, while others, in general, correlate with the linguistic specificity of texts from the subcorpus of written reviews. In conclusion, we formulate definitions of naturalness as a textual and psycholinguistic category. В контексте развития технологий текстовой генерации оппозиция «естественность - неестественность текста» трансформируется в новую дихотомию: «естественность - искусственность». Цель данной статьи -исследовать феномен естественности в данном контексте с двух точек зрения: анализа лингвистических характеристик естественного текста на фоне сгенерированного (искусственного) и интроспективных представлений информантов-носителей русского языка относительно того, каким должен быть «естественный» текст, и чем он должен отличаться от сгенерированного. Материалом для исследования послужил параллельный корпус кинорецензий на русском языке, состоящий из двух подкорпусов: рецензий, написанных людьми, и сгенерированных большой языковой моделью на основе промптов, представляющих собой начала отзывов из первого подкорпуса. Для сопоставительного анализа двух подкорпусов применялись следующие методы: метод компьютерной обработки текстов для подсчета значений 130 метрик лингвистической сложности текста; метод психолингвистического эксперимента; метод экспертного анализа текста; метод сравнительносопоставительного анализа. В результате было определено, что с точки зрения собственных лингвистических характеристик «естественные» тексты отличаются от сгенерированных преимущественно большей гибкостью синтаксической структуры, допускающей как пропуск или сокращение структур, так и избыточность, а также - большей лексической вариативностью. Естественность же как категория психолингвистическая связана с автостереотипными представлениями информантов о том, какими когнитивными характеристиками обладают люди как вид. Анализ ошибочно атрибутированных информантами текстов (сгенерированных, размеченных как естественные, и наоборот) показал, что ряд характеристик данного автостереотипа переоцениваются информантами, другие же, в целом, коррелируют с лингвистической спецификой текстов из подкорпуса написанных рецензий. В заключение сформулированы определения естественности как текстовой и психолингвистической категории.

Ссылки на полный текст

Издание

Журнал: Научный результат. Вопросы теоретической и прикладной лингвистики

Выпуск журнала: Т. 10, 2

Номера страниц: 71-99

ISSN журнала: 23138912

Место издания: Белгород

Издатель: Белгородский государственный национальный исследовательский университет

Персоны

  • Kolmogorova A.V. (The National Research University Higher School of Economics (HSE University))
  • Margolina A.V. (Actum CBP d.o.o)

Вхождение в базы данных