logo T-one

T-one

Модель распознавания речи

Описание:

Модель T-one предназначена для работы с аудиопотоком произвольной длины в реальном времени с низкой задержкой обработки (около 1–1,2 секунды). Она объединяет 71,6 млн параметров.

В базирующейся на архитектуре Conformer нейросети применяется подход CTC (Connectionist Temporal Classification, коннекционистская временная классификация), главной особенностью которого является использование так называемых пустых токенов (Blank Token), в частности для разделения групп символов и фильтрации повторяющихся токенов.

T-one делит входной аудиопоток на сегменты по 300 миллисекунд и оценивает вероятность символов для каждого его участка (фрейма). Текст восстанавливается по матрице вероятностей с использованием алгоритмов Greedy Decoding (выбирает наиболее вероятный символ алфавита для каждого временного шага) и Beam Search Decoding (случайным образом выбирает символ из наиболее правдоподобных вариантов).

Обучение модели заняло 7 дней на 8 графических процессорах NVIDIA A100. Весы T-one были инициализированы случайно. В ходе обучения использовались библиотека NeMo и датасет из более чем 80 тысяч часов русскоязычных аудиофайлов телефонных разговоров длиной от 100 миллисекунд до 20 секунд.

Модель T-one была представлена Центром искусственного интеллекта группы «Т-Технологии» в июле 2025 года. Доступна как открытое ПО.


Репозитории на GitHub и Hugging Face

Текстовая версия обзора модели на Habr


👤 Павел Сухачев


Участвует в спецпроектах ICT.Moscow:
logo T-one
Проект запущен:
2025
Последнее обновление:12.11.2025
Главное про цифровые технологии в Москве

Нажимая на кнопку, вы соглашаетесь с политикой конфиденциальности

Что такое ICT.Moscow?

ICT.Moscow — открытая площадка о цифровых технологиях в Москве. Мы создаем наиболее полную картину развития рынка технологий в городе и за его пределами, помогаем бизнесу следить за главными трендами, не упускать возможности и находить новых партнеров.