logo mGPT

mGPT

Большая языковая модель

Описание:

Многоязычная модель длиной контекста в 512 токенов содержит 13 млрд параметров. mGPT была обучена на графических процессорах NVIDIA V100 на 600 Гб текстов на разных языках, собранных из датасета C4 и других открытых источников, главным образом, из «Википедии».

Модель на основе разработанной компанией OpenAI архитектуры GPT-3 способна создавать тексты на 61 языке 25 языковых семей, среди которых языки стран СНГ и малых народов России. Помимо генерации текста, mGPT после дообучения может решать специализированные задачи в области обработки естественного языка. По заявлениям разработчиков, для большинства языков модель показала перплексию — меру того, насколько хорошо модель предсказывает детали тестовой выборки — от 2 до 10.

Компания SberDevices представила оригинальные версии модели (mGPT 13B и mGPT XL размером в 1,3 млрд параметров) в апреле 2022 года. Для 23 языков на основе mGPT XL на специальных датасетах были дообучены и представлены улучшенные моноязычные модели. Обновленная версия модели mGPT 13B была выпущена в июле 2023 года. Доступна как открытое ПО.


Репозитории на GitHub и Hugging Face

Страница на Google Colab

Статья в журнале Transactions of the Association for Computational Linguistics

Промежуточные результаты обучения (чекпоинты) на «СберДиске», а также пример работы на Google Colab


👤 Сергей Аверкиев

👤 Мария Тихонова

👤 Алена Феногенова


Участвует в спецпроектах ICT.Moscow:
logo mGPT
Проект запущен:
2022
Последнее обновление:13.11.2025
Главное про цифровые технологии в Москве

Нажимая на кнопку, вы соглашаетесь с политикой конфиденциальности

Что такое ICT.Moscow?

ICT.Moscow — открытая площадка о цифровых технологиях в Москве. Мы создаем наиболее полную картину развития рынка технологий в городе и за его пределами, помогаем бизнесу следить за главными трендами, не упускать возможности и находить новых партнеров.