Автоматический поиск функций потерь для различных архитектур нейронных сетей : научное издание

Описание

Тип публикации: статья из журнала

Год издания: 2024

Ключевые слова: differential evolution, neural networks, polynomial approximation, loss function, python, дифференциальная эволюция, нейронные сети, полиномиальная аппроксимация, функция потерь

Аннотация: В данной статье рассматривается задача поиска улучшенной функции потерь, которая позволила бы получать лучшие результаты обучения для различных архитектур нейронных сетей. При этом применяется полиноминальная аппроксимация функции потерь вместо широко используемой перекрестной энтропии.Целью данного исследования является проверка гПоказать полностьюипотезы о возможности автоматического построения таких функций потерь для задачи классификации, которые позволили бы эффективно обучать различные типы архитектур нейронных сетей. Для этого были решены следующие задачи: разработан алгоритм дифференциальной эволюции с ранговой селекцией, реализована полиномиальная аппроксимация функции потерь и проведены эксперименты на задаче классификации изображений.Обучение производилось на наборе данных CIFAR10 на двух архитектурах - LeNet и ResNet18, а тестирование на девяти других архитектурах. Среди результатов экспериментов можно выделить повышение точности обучения для большинства рассмотренных архитектур. This work examines the problem of finding an improved loss function that would allow obtaining better training results for various neural network architectures. A polynomial ap- proximation of the loss function is used instead of the widely used cross entropy.The purpose of this study is to test the hypothesis about the possibility of automated design of such loss function, which would allow efficient training of different types of neural network architectures. For this the following tasks were solved: the differential evolution with rank-based selection was designed, the polynomial approximation of loss function was implemented, and the experiments on the image classification problem were performed.The training was carried out on the CIFAR10 data set on two architectures - LeNet and ResNet18, and testing on nine other architectures. Among the experimental results, one can highlight the improvement in accuracy for most of the considered architectures.

Ссылки на полный текст

Издание

Журнал: Components of Scientific and Technological Progress

Выпуск журнала: 3

Номера страниц: 119-124

ISSN журнала: 19979347

Место издания: Paphos

Издатель: Фонд развития науки и культуры

Персоны

  • Морозов Э.В. (ФГБОУ ВО «Сибирский государственный университет науки и технологий имени академика М.Ф. Решетнева»)
  • Становов В.В. (ФГАОУ ВО «Сибирский федеральный университет»)

Вхождение в базы данных