Transfer learning based feature selection for feedforward neural network for speech emotion classifier

Date
2025Publisher
Another Title
Отбор признаков на основе техники переноса обучения для классификации эмоций в речи с помощью полносвязной нейронной сети прямого распространения
Bibliographic entry
Krasnoproshin, D. V. Transfer learning based feature selection for feedforward neural network for speech emotion classifier = Отбор признаков на основе техники переноса обучения для классификации эмоций в речи с помощью полносвязной нейронной сети прямого распространения / D. V. Krasnoproshin, M. I. Vashkevich // Системный анализ и прикладная информатика. – 2025. – № 1. – С. 38-43.
Abstract
This work discusses speech emotion recognition via custom feature engineering and feature selection techniques using mel-frequency cepstral coefficients as initial audio features. Proposed transfer learning approach consist in employing the backward-step selection algorithm for feature selection using statistical learning classifiers, the obtained subset of features than subsequently used to train feedforward neural networks. This technique allowed us to significantly reduce initial feature vector size while increasing models’ prediction quality. We used TESS and RAVDESS datasets to estimate the performance of proposed method. To evaluate the quality of the model, unweighted average recall (UAR) was used. Experimental results demonstrate promising accuracy (UAR = 82 % for TESS and UAR = 53 % for RAVDESS), showcasing the potential of this approach for applications like virtual agents, voice assistants and mental health diagnostics.
Abstract in another language
В работе исследуется задача распознавания эмоций в речи с помощью метода проектирования и отбора речевых признаков. В качестве исходных аудио признаков использовались мел-частотные кепстральные коэффициенты. В работе предлагается подход, в основе которого лежит идея переноса обучения, заключается в использовании метода пошагового исключения признаков при помощи статистических моделей – классификаторов. Отобранное подмножество признаков затем используется для обучения полносвязных нейронных сетей прямого распространения. Такой подход позволяет значительно уменьшить размер исходного признакового пространства и одновременно повысить качество предсказаний моделей. В качестве наборов данных для постановки экспериментов были использованы TESS и RAVDESS. Метрикой оценки качества классификаторов послужила невзвешенная средняя полнота (unweighted average recall – UAR). Результаты экспериментов являются многообещающими (UAR для TESS = 82 %, UAR для RAVDESS = 53 %), тем самым демонстрируя перспективность предложенного подхода к задаче классификации эмоций по речи.
View/ Open
Collections
- № 1[9]