logo Vikhr Salt

Vikhr Salt

Большая мультимодальная модель

Описание:

Vikhr Salt (Speech and Language Transformer) переводит устную речь в текст и обратно. В настоящее время модель лучше всего работает с английским языком. Кроме того, Vikhr Salt поддерживает генерацию коротких фраз на немецком и французском.

В ее основе лежит большая языковая модель (Large Language Model, LLM), словарь которой был расширен аудиотокенами (небольшими аудиоотрезками). Далее модель (LLaMA 3) была дообучена для задач распознавания (Automatic Speech Recognition, ASR) и генерации речи (Text-to-Speech, TTS). Для кодирования аудиоряда Vikhr Salt использует две встроенных модели: EnСodec и SpeechTokenizer.

Модель размером в 3,23 млрд параметров была обучена на датасетах Librispeech и TEDLIUM в течение 150 часов с использованием графических процессоров NVIDIA A100.

Команда Vikhr Models представила Salt в январе 2025 года. По заявлениям разработчиков, в будущем модель будет дообучена для работы с русской речью, а также сможет обрабатывать и генерировать музыкальные треки.


Пример работы Vikhr Salt в Google Colab

Репозиторий в GitHub


👤 Ксения Сычева


logo Vikhr Salt
Проект запущен:
2025
Последнее обновление:27.01.2025
Материалы о разработчике
Главное про цифровые технологии в Москве

Нажимая на кнопку, вы соглашаетесь с политикой конфиденциальности

Что такое ICT.Moscow?

ICT.Moscow — открытая площадка о цифровых технологиях в Москве. Мы создаем наиболее полную картину развития рынка технологий в городе и за его пределами, помогаем бизнесу следить за главными трендами, не упускать возможности и находить новых партнеров.



Если не указано иное, материалы доступны по лицензии Creative Commons BY 4.0