Большая мультимодальная модель
Vikhr Salt (Speech and Language Transformer) переводит устную речь в текст и обратно. В настоящее время модель лучше всего работает с английским языком. Кроме того, Vikhr Salt поддерживает генерацию коротких фраз на немецком и французском.
В ее основе лежит большая языковая модель (Large Language Model, LLM), словарь которой был расширен аудиотокенами (небольшими аудиоотрезками). Далее модель (LLaMA 3) была дообучена для задач распознавания (Automatic Speech Recognition, ASR) и генерации речи (Text-to-Speech, TTS). Для кодирования аудиоряда Vikhr Salt использует две встроенных модели: EnСodec и SpeechTokenizer.
Модель размером в 3,23 млрд параметров была обучена на датасетах Librispeech и TEDLIUM в течение 150 часов с использованием графических процессоров NVIDIA A100.
Команда Vikhr Models представила Salt в январе 2025 года. По заявлениям разработчиков, в будущем модель будет дообучена для работы с русской речью, а также сможет обрабатывать и генерировать музыкальные треки.
Пример работы Vikhr Salt в Google Colab
Нажимая на кнопку, вы соглашаетесь с политикой конфиденциальности
ICT.Moscow — открытая площадка о цифровых технологиях в Москве. Мы создаем наиболее полную картину развития рынка технологий в городе и за его пределами, помогаем бизнесу следить за главными трендами, не упускать возможности и находить новых партнеров.