
Модель распознавания речи
Выложенная в открытый доступ модель для потокового распознавания речи T-One размером в 71,6 млн параметров предназначена для работы с аудиопотоком произвольной длины в реальном времени с низкой задержкой обработки (около 1—1,2 секунд).
В базирующейся на архитектуре Conformer нейросети применяется подход CTC (Connectionist Temporal Classification, коннекционистская временная классификация), главной особенностью которого является использование так называемых пустых токенов (Blank Token), в частности для разделения групп символов и фильтрации повторяющихся токенов.
T-One делит входной аудиопоток на сегменты по 300 миллисекунд и оценивает вероятность символов для каждого его участка (фрейма). Текст восстанавливается по матрице вероятностей с использованием алгоритмов Greedy Decoding (выбирает наиболее вероятный символ алфавита для каждого временного шага) и Beam Search Decoding (случайным образом, выбирает символ из наиболее правдоподобных вариантов).
Обучение модели заняло 7 дней на 8 графических процессорах NVIDIA A100. Весы T-One были инициализированы случайно. В ходе обучения использовались библиотека NeMo и датасет из более чем 80 тысяч часов русскоязычных аудиофайлов телефонных разговоров длиной от 100 миллисекуд до 20 секунд.
Модель T-One была представлена Центром искусственного интеллекта группы «Т-Технологии» в июле 2025 года.
Нажимая на кнопку, вы соглашаетесь с политикой конфиденциальности
ICT.Moscow — открытая площадка о цифровых технологиях в Москве. Мы создаем наиболее полную картину развития рынка технологий в городе и за его пределами, помогаем бизнесу следить за главными трендами, не упускать возможности и находить новых партнеров.