Тип публикации: доклад, тезисы доклада, статья из сборника материалов конференций
Конференция: Решетневские чтения; Красноярск; Красноярск
Год издания: 2025
Ключевые слова: data collection automation, INDUSTRIAL equipment, large language models, structured data, information Extraction, автоматизация сбора данных, промышленное оборудование, большие языковые модели, структурированные данные, извлечение информации
Аннотация: Предложен метод автоматизации сбора характеристик промышленного оборудования с веб-сайтов с использованием большой языковой модели. Подход сочетает предварительную очистку HTML-кода от лишних элементов и строго формализованный запрос для получения данных в едином структурированном JSON-формате. Тестирование на 8 сайтах подтвердило Показать полностьюэффективность метода для работы с разнородными источниками. A method for automated collection of industrial equipment specifications from websites using a large language model is proposed. The approach combines preliminary cleaning of HTML code from redundant elements and a strictly formalized request to obtain data in a unified structured JSON format. Testing on 8 websites confirmed the method's effectiveness for processing heteroge-neous sources.
Журнал: Решетневские чтения
Номера страниц: 137-139
Место издания: Красноярск