logo mGPT

mGPT

Большая языковая модель

Описание:

Выложенная в открытый доступ многоязычная модель длиной контекста в 512 токенов содержит 13 млрд параметров. mGPT была обучена на графических процессорах NVIDIA V100 на 600 Гб текстов на разных языках, собранных из датасета C4 и других открытых источников, главным образом, из «Википедии».

Модель на основе разработанной компанией OpenAI архитектуры GPT-3 способна создавать тексты на 61 языке 25 языковых семей, среди которых языки стран СНГ и малых народов России. Помимо генерации текста, mGPT после дообучения может решать специализированные задачи в области обработки естественного языка. Разработчики подчеркивают, что для большинства языков модель показала перплексию — меру того, насколько хорошо модель предсказывает детали тестовой выборки — от 2 до 10, что является хорошим показателем.

Компания SberDevices представила оригинальные версии модели (mGPT 13B и mGPT XL размером в 1,3 млрд параметров) в апреле 2022 года. Для 23 языков на основе mGPT XL на специальных датасетах были дообучены и представлены улучшенные моноязычные модели. Обновленная версия модели mGPT 13B была выпущена в июле 2023 года.


Промежуточные результаты обучения (чекпоинты) на «СберДиске»

Репозиторий на GitHub

Репозиторий на Hugging Face

Страница на Google Colab

Статья в журнале Transactions of the Association for Computational Linguistics


👤 Алена Феногенова

👤 Сергей Аверкиев


logo mGPT
Проект запущен:
2022
Последнее обновление:23.12.2024
Главное про цифровые технологии в Москве

Нажимая на кнопку, вы соглашаетесь с политикой конфиденциальности

Что такое ICT.Moscow?

ICT.Moscow — открытая площадка о цифровых технологиях в Москве. Мы создаем наиболее полную картину развития рынка технологий в городе и за его пределами, помогаем бизнесу следить за главными трендами, не упускать возможности и находить новых партнеров.



Если не указано иное, материалы доступны по лицензии Creative Commons BY 4.0