Тип публикации: статья из журнала
Год издания: 2024
Идентификатор DOI: 10.17223/19988605/68/11
Ключевые слова: deep learning, sound source localization, classification, sound intensity, convolutional neural network, глубокое обучение, локализация акустического источника, классификация, акустическая интенсивность, сверточная нейронная сеть
Аннотация: Представлена модель глубокого обучения для локализации акустического источника, которая рассматривает локализацию как проблему классификации направлений источников. Предложен подход, основанный на интеграции признаков акустической интенсивности и признаков GCC-PHAT (Generalized cross-correlation - phase transform) в качестве входныПоказать полностьюх данных для сверточных нейронных сетей. С учетом условий моделирования были созданы наборы данных с целью обучения, валидации и тестирования модели с пространственным разрешением 10° и 2°. Результаты моделирования продемонстрировали эффективность предложенной модели при локализации источника с высокой точностью в замкнутой среде и при наличии реверберации. Предложенная модель с разрешением 10° превзошла модель, принимавшую только признаки акустической интенсивности в качестве входных данных, достигнув улучшения точности на 6,57% и точности прогнозирования на 2,86%, в то время как модель с разрешением 2° достигла улучшения точности на 15,57% и точности прогнозирования на 2,04%. Вклад авторов: все авторы сделали эквивалентный вклад в подготовку публикации. Авторы заявляют об отсутствии конфликта интересов. This paper presents a deep learning model for sound source localization, which considers localization as a source direction classification problem. An approach is proposed based on the integration of sound intensity features and GCC-PHAT (Generalized cross-correlation - phase transform) features as input data for convolutional neural networks. Taking into account the modeling conditions, datasets were created for the purpose of training, validating and testing the model with spatial resolutions of 10° and 2°. Simulation results demonstrated the effectiveness of the proposed model in localizing the source with high accuracy in a closed environment and in the presence of reverberation. The proposed model with a resolution of 10° outperformed the model fed with only sound intensity features as input features, achieving improvement in accuracy by 6,57% and in prediction accuracy by 2,86%, while the model with a resolution of 2° achieved an improvement in accuracy by 15,57% and in prediction accuracy by 2,04%. Contribution of the authors: the authors contributed equally to this article. The authors declare no conflicts of interests.
Журнал: Вестник Томского государственного университета. Управление, вычислительная техника и информатика
Выпуск журнала: №68
Номера страниц: 100-111
ISSN журнала: 19988605
Место издания: Томск
Издатель: Национальный исследовательский Томский государственный университет