Автоматизированное сравнение научных исследований на базе академической генеалогии

Описание

Тип публикации: статья из журнала

Год издания: 2025

Идентификатор DOI: 10.32517/0234-0453-2025-40-6-16-27

Ключевые слова: academic genealogy, scientometrics, comparison of scientific papers, large language models, content analysis, knowledge graphs, dissertation research, silhouette coefficient, академическая генеалогия, наукометрия, сравнение научных работ, большие языковые модели, анализ содержания, графы знаний, диссертационные исследования, коэффициент силуэта

Аннотация: Статья посвящена задаче анализа больших корпусов научных текстов. Отмечается, что традиционные наукометрические подходы, основанные на анализе цитирований, не всегда позволяют оценить содержательную близость идей и проследить интеллектуальную преемственность научных знаний. В работе предлагается алгоритм, сочетающий возможности болПоказать полностьюьших языковых моделей (БЯМ) и количественных методов анализа. Подход включает два этапа. На первом этапе БЯМ используется для анализа содержания научной работы в соответствии с иерархическим классификатором и преобразования полученных данных в машиночитаемый формат в виде JSON-объекта. В результате каждой научной работе ставится в соответствие вектор ее тематического профиля. На втором этапе производится сравнение тематических профилей как отдельных работ, так и заранее заданных групп (научных школ) по расстояниям между центроидами и с применением методов кластерного анализа. Конечная цель подхода - перейти от формального анализа связей между исследователями (например, «научный руководитель - диссертант») к построению интеллектуальной генеалогии, отслеживающей эволюцию научных школ на основе содержательной близости их идей. Подчеркивается, что предложенный подход не заменяет экспертную оценку, а служит вспомогательным инструментом для навигации в научной литературе и выявления связей между исследованиями. The article addresses the problem of analyzing large corpora of scientific texts. It is noted that traditional scientometric approaches based on citation analysis do not always capture the substantive proximity of ideas or trace the intellectual continuity of scientific knowledge. The paper proposes an algorithm that combines the capabilities of large language models (LLMs) with quantitative analytical methods. The approach proceeds in two stages. At the first stage, LLM is used to automatically structure the text of a scientific paper and convert it into a machine-readable format. This yields, for each work, a vector representation of its thematic profile. At the second stage, thematic profiles of individual works and of pre-specified groups (schools of thought) are compared using centroid distances and clustering techniques. The ultimate goal is to move beyond formal relational analyses among researchers (e. g., “supervisor - dissertation candidate”) toward constructing an intellectual genealogy that tracks the evolution of schools of thought on the basis of the substantive proximity of their ideas. It is emphasized that the proposed approach does not replace expert assessment but serves as an auxiliary tool for navigating the scientific literature and identifying connections between studies.

Ссылки на полный текст

Издание

Журнал: Информатика и образование

Выпуск журнала: Т. 40, 6

Номера страниц: 16-27

ISSN журнала: 02340453

Место издания: Москва

Издатель: ООО "Образование и Информатика", Российская академия образования

Персоны

  • Мариносян А. Х. (Московский городской педагогический университет)
  • Григорьев С. Г. (Московский городской педагогический университет)
  • Лернер И. М. (Казанский (Приволжский) федеральный университет)
  • Аникьева М. А. (Сибирский федеральный университет)

Вхождение в базы данных