Тип публикации: статья из журнала
Год издания: 2025
Идентификатор DOI: 10.7256/2585-7797.2025.1.72586
Ключевые слова: geoparsing, mapping, named-entity recognition, historical computer science, siberia, Minusinsk, world map, children's literature, Minusinsk Public Library, pre-reform orthography, геопарсинг, картирование, Выявление именованных сущностей, историческая информатика, сибирь, Минусинск, карта мира, детская литература, Минусинская общественная библиотека, дореформенная орфография
Аннотация: Предметом исследования является корпус детской литературы из собрания Минусинской общественной библиотеки конца XIX - начала XX века, состоящий из 121 произведения, написанных между 1719 и 1905 годами. Эти тексты представляют собой значимый источник для изучения формирования географического восприятия у жителей провинциального сибиПоказать полностьюрского города через художественную литературу. Особое внимание уделено анализу географических названий (топонимов), встречающихся в текстах, с целью выявления их частоты и географического распределения. Это позволяет реконструировать картину мира, представленную в книгах того времени, и понять, как она воспринималась детской аудиторией, формируя их представление о странах, городах и культурных центрах. Работа направлена на изучение роли детской литературы как культурного инструмента, который отражает и формирует географические представления, а также на выявление методологических вызовов и ограничений при работе с историческими корпусами. Методологическая основа включает приведение дореформенных текстов к машиночитаемому виду с использованием инструментов оцифровки и геопарсинг для автоматического выявления географических сущностей. Для анализа применялась библиотека Spacy с последующей ручной проверкой и корректировкой данных. Результаты исследования включают выявление 668 городов и 97 стран, представленных в текстах, а также построение картографической визуализации частотного распределения упоминаний. Анализ выявил неравномерность распределения географических наименований в различных текстах, где преобладают упоминания России, Польши и Англии среди стран, а Киева, Москвы и Санкт-Петербурга среди городов. Область применения результатов включает исследования в области цифровых гуманитарных наук, библиотековедения и историко-культурных исследований. Новизна же работы заключается в использовании современных методов геопарсинга для обработки русскоязычных текстов дореформенной орфографии и в анализе ранее не изученного корпуса литературы Минусинской библиотеки. Выводы подчеркивают значимость картирования текстов для понимания формирования географического восприятия и необходимость дальнейшего развития инструментов NER для сложных корпусов. Несмотря на ограничения, исследование вносит вклад в развитие методов NLP для исторических текстов. The subject of the study is the corpus of children's literature from the collection of the Minusinsk Public Library of the late XIX - early XX century, consisting of 121 works written between 1719 and 1905. These texts are a significant source for studying the formation of geographical perception among residents of a provincial Siberian city through fiction. Special attention is paid to the analysis of geographical names (toponyms) found in texts in order to identify their frequency and geographical distribution. This allows us to reconstruct the picture of the world presented in the books of that time and understand how it was perceived by the children's audience, forming their idea of countries, cities and cultural centers. The research is aimed at studying the role of children's literature as a cultural tool that reflects and forms geographical representations, as well as at identifying methodological challenges and limitations when working with historical buildings. The methodological basis includes bringing pre-reform texts to a machine-readable form using digitization tools and geoparsing to automatically identify geographical entities. The Spacy library was used for the analysis, followed by manual verification and correction of the data. The results of the study include the identification of 668 cities and 97 countries represented in the texts, as well as the construction of a cartographic visualization of the frequency distribution of mentions. The analysis revealed an uneven distribution of geographical names in various texts, where mentions of Russia, Poland and England prevail among countries, and Kiev, Moscow and St. Petersburg among cities. The scope of the results includes research in the field of digital humanities, library science and historical and cultural studies. The novelty of the work lies in the use of modern geoparsing methods for processing Russian-language texts of pre-reform spelling and in the analysis of the previously unexplored literature corpus of the Minusinsk Library. The conclusions emphasize the importance of text mapping for understanding the formation of geographical perception and the need for further development of NER tools for complex corpora. Despite the limitations, the research contributes to the development of NLP methods for historical texts.
Журнал: Историческая информатика
Выпуск журнала: №1
Номера страниц: 174-189
ISSN журнала: 25857797
Место издания: Москва
Издатель: Даниленко Денис Васильевич