Система ИИ в Сбер достигла новых высот в распознавании русского языка
Исследователи разработали инновационный метод для улучшения точности распознавания русского языка с использованием AI-моделей. В новой методике применяются целевые переменные из CTC-модели распознавания (Connectionist Temporal Classification), что способствует более семантическому представлению данных.
Данные результаты были представлены на международной конференции Interspeech 2025 в научной статье под названием GigaAM: Efficient Self-Supervised Learner for Speech Recognition.
В ходе тестирования нового подхода количество ошибок распознавания удалось сократить на 50%.
Как отметил технический директор GigaChat Сбера Федор Минькин, новая методика фокусируется на семантических представлениях.
«Это не просто инкрементальное улучшение метрики, а качественный скачок. Новая архитектура демонстрирует высокую эффективность и гибкость. Она ломает барьеры, которые долгое время сдерживали развитие ASR-систем для языков с небольшим количеством данных», — отметил он.
Минькин добавил, что метод может стать новым стандартом для индустрии, ускоряя прогресс и закладывая основу для следующих поколений голосовых интерфейсов.