AP19678995 – Разработка метода распознавания дикторов с применением глубоких нейронных сетей при ультракороткой продолжительности чистой речи
Цель проекта:
Цель проекта – это исследование возможности реализации и обучения глубоких нейронных сетей для идентификации дикторов по ультракоротким фразам, когда стандартные статистические методы не работают.
Актуальность:
Предлагаемый проект направлен на исследование эффективности применения глубоких нейронных сетей при разработке систем идентификации по голосу на основе ультракоротких фраз, продолжительность которых в чистом виде не превышает нескольких секунд. Актуальность данных исследований основана на том, что применяемые на сегодняшний день методы распознавания дикторов в основном ориентированы на построение статистической модели голоса диктора, где применяются гауссовские смешанные модели, i-vectors и т.д. Однако, как показывает практика, в реальной жизни часто возникает такая ситуация, когда требуется идентифицировать человека по его коротким фразам. Ясно, что из ультракороткого высказывания человека фактически невозможно построить статистическую цифровую модель голоса. Таким образом, мы сталкиваемся с проблемой создания голосовой модели говорящего, не требующей длинные высказывания (с продолжительностью более 15 сек в чистом виде). Исходя из этого, мы ставим задачу провести исследования и разработку алгоритмов построения голосовой модели человека, когда традиционные статистические методы неприменимы.
Научный руководитель: PhD, профессор, Ахмедиярова Айнур Танатаровна
Количественный и качественный состав исполнителей проекта: 8 исполнителей, в составе: 5 PhD, 1 магистр
Полученные результаты: начало проекта – 2023 г.
Сроки реализации: 2023-2025 гг.