МАШИННОЕ ОБУЧЕНИЕВ ЗАДАЧАХ РАСПОЗНАВАНИЯ ЭМОЦИЙ

Екатерина Нестерова

10 месяцев назад

Распознавание речи вошло в повседневную жизнь благодаря интеллектуальным мобильным устройствам, которые способны принимать голосовые команды и отвечать на них синтезированной речью. Оно существует уже более двух десятилетий и находит применение во взаимодействии человека и компьютера, мобильных сервисах, колл-центрах, компьютерных играх и др. Но сейчас гораздо более актуальной и важной задачей для развития интеллектуальных систем взаимодействия человека и компьютера является распознавание эмоций по голосу. Эта задача непроста, ведь эмоции зависят не только от индивидуальных особенностей человека, но и от его культурной принадлежности.

Исследователи из Пятигорского государственного университета провели эксперимент, чтобы понять, как культурные различия влияют на выражение эмоций в речи. В рамках научно-исследовательского проекта «Квантитативно-статистическая модель анализа эмоционально-маркированной коммуникации в условиях межэтнических взаимодействий в регионе Кавказские Минеральные Воды», получившего финансовую поддержку Российского научного фонда и Министерства образования Ставропольского края, молодые ученые Гончарова О.В., Левит А.А. и Фролова Н.В. под руководством доктора филологических наук профессора Заврумов З.А. записали аудио диалогов между представителями русской, кабардинской и армянской этногрупп региона Кавказские Минеральные Воды, в которых участники испытывали эмоции радости и гнева, и затем проанализировали акустические характеристики этих диалогов с помощью методов машинного обучения.
Оказалось, что для распознавания эмоций важны как просодические признаки (частота основного тона, интенсивность, длительность), так и спектральные (формантные частоты, кепстральные коэффициенты). Причем наилучшие результаты достигаются при совместном использовании этих двух типов признаков. Кроме того, проведенный исследователями анализ на уровне слогов дал более точные результаты, чем на уровне целых фраз. Возможно, это связано с тем, что на уровне слогов меньше «шумовых» факторов, влияющих на выражение эмоций. Интересно, что некоторые акустические признаки, такие как тональные уровни, скорость изменения частоты и интенсивности, оказались особенно важны для распознавания эмоций в межкультурном контексте. Это говорит о том, что культурные особенности накладывают отпечаток на то, как люди выражают свои чувства голосом.
Результаты исследования лингвистов из Пятигорского государственного университета могут помочь создавать более эффективные системы распознавания эмоций, которые будут работать надежно, независимо от культурной принадлежности пользователя. Это особенно актуально для многонациональных регионов, где люди говорят на разных языках. Применение таких систем может улучшить взаимодействие человека и компьютера в самых разных областях – от голосовых помощников до систем поддержки принятия решений.

Сергей Краснов, ПГУ

Поделиться новостью: