ПРИМЕНЕНИЕ ГИБРИДНОЙ ИНТЕГРАЛЬНОЙ МОДЕЛИ ДЛЯ РАСПОЗНАВАНИЯ КАЗАХСКОЙ РЕЧИ
DOI:
https://doi.org/10.32014/2022.2518-1726.117Ключевые слова:
автоматическое распознавание речи, интегральная модель, CTC, механизм внимания, малоресурсные языкиАннотация
Распознавание речи играет значимую роль при взаимодействии человека с машиной и техникой. Целью распознавания речи является конвертирование человеческой речи в машиночитаемый формат. Технология speech to text применяется в широких кругах задач, как управление интерфейсом, голосовой поиск, синтез речи и т.д. Данные системы отличаются со своей дружелюбности к пользователю, что помогает управлять устройством без дополнительных механизмов. Современные системы автоматического распознавания речи на основе интегральных моделей показывают очень хорошие результаты с точки зрения точности распознавания языков, которые имеют большие корпусы на несколько тысяч часов речи для обучения системы. Такие модели требуют очень большой объем тренировочных данных, что является проблематичным для мало-ресурсных языков, как казахский язык. Однако, во многих исследованиях было показано что совместное использование CTC с другими интегральными моделями улучшает показатели систем даже с ограниченными обучающими данными. В связи с этим был собран речевой корпус казахского языка с объемом 250 часов речи. В нашей работе впервые была построена совместная модель СТС и кодер-декодер на основе механизма внимания для распознавания казахской речи. В этой модели был применен гибридный тип механизма внимания. Полученные результаты продемонстрировали, что предлагаемая интегральная модель при использовании внешних языковых моделей улучшило показателей системы и показала лучший результат на нашем наборе данных для казахского языка. В результате эксперимента система достигла 5.9% CER, что является конкурентноспособным результатом по распознаванию казахской речи.