
Модель распознавания речи
Vosk помогает в различных задачах распознавания человеческой речи.
Существуют два основных типа моделей, основанных на трансформерной архитектуре Zipformer. Vosk Small размером около 50 Мб могут применяться на смартфонах, десктопах и устройствах на базе Raspberry Pi. Более крупные по размеру модели Vosk созданы для работы на серверах и позволяют производить более точную транскрибацию.
Кроме того, есть версии для задач потокового распознавания речи (в рамках одного соединения), расстановки пунктуации и синтеза речи на русском языке (Vosk TTS).
По состоянию на октябрь 2025 года существуют варианты Vosk для распознавания речи на 30 языках, в частности на русском, английском (и его индийском диалекте), китайском, португальском (и его бразильском диалекте).
Модель Vosk представлена компанией «АЦ Технологии» в марте 2019 года. В апреле 2025 года выпущена обновленная версия Vosk 0.54 размером в 65 млн параметров.
Доступна как открытое ПО.
Репозитори на GitHub и Hugging Face

Нажимая на кнопку, вы соглашаетесь с политикой конфиденциальности
ICT.Moscow — открытая площадка о цифровых технологиях в Москве. Мы создаем наиболее полную картину развития рынка технологий в городе и за его пределами, помогаем бизнесу следить за главными трендами, не упускать возможности и находить новых партнеров.