• лента
  • кейсы
  • московские решения
  • аналитика рынка
  • ICT.moscow об ИИ
  • презентации
  • подписка
  • материалы по теме
logo Vosk

Vosk

Модель распознавания речи

Описание:

Vosk помогает в различных задачах распознавания человеческой речи.

Существуют два основных типа моделей, основанных на трансформерной архитектуре Zipformer. Vosk Small размером около 50 Мб могут применяться на смартфонах, десктопах и устройствах на базе Raspberry Pi. Более крупные по размеру модели Vosk созданы для работы на серверах и позволяют производить более точную транскрибацию.

Кроме того, есть версии для задач потокового распознавания речи (в рамках одного соединения), расстановки пунктуации и синтеза речи на русском языке (Vosk TTS).

По состоянию на октябрь 2025 года существуют варианты Vosk для распознавания речи на 30 языках, в частности на русском, английском (и его индийском диалекте), китайском, португальском (и его бразильском диалекте).

Модель Vosk представлена компанией «АЦ Технологии» в марте 2019 года. В апреле 2025 года выпущена обновленная версия Vosk 0.54 размером в 65 млн параметров.

Доступна как открытое ПО.


Репозитори на GitHub и Hugging Face


👤 Николай Шмырев


logo Vosk
Проект запущен:
2019
Контакты:

Сайт:
216
Последнее обновление:11.11.2025
Что такое ICT.Moscow?

ICT.Moscow — открытая площадка о цифровых технологиях в Москве. Мы создаем наиболее полную картину развития рынка технологий в городе и за его пределами, помогаем бизнесу следить за главными трендами, не упускать возможности и находить новых партнеров.