Большая языковая модель
Выложенная в открытый доступ многоязычная модель длиной контекста в 512 токенов содержит 13 млрд параметров. mGPT была обучена на графических процессорах NVIDIA V100 на 600 Гб текстов на разных языках, собранных из датасета C4 и других открытых источников, главным образом, из «Википедии».
Модель на основе разработанной компанией OpenAI архитектуры GPT-3 способна создавать тексты на 61 языке 25 языковых семей, среди которых языки стран СНГ и малых народов России. Помимо генерации текста, mGPT после дообучения может решать специализированные задачи в области обработки естественного языка. Разработчики подчеркивают, что для большинства языков модель показала перплексию — меру того, насколько хорошо модель предсказывает детали тестовой выборки — от 2 до 10, что является хорошим показателем.
Компания SberDevices представила оригинальные версии модели (mGPT 13B и mGPT XL размером в 1,3 млрд параметров) в апреле 2022 года. Для 23 языков на основе mGPT XL на специальных датасетах были дообучены и представлены улучшенные моноязычные модели. Обновленная версия модели mGPT 13B была выпущена в июле 2023 года.
Промежуточные результаты обучения (чекпоинты) на «СберДиске»
Статья в журнале Transactions of the Association for Computational Linguistics
Куда движутся российские экосистемы
ICT.Moscow
Нажимая на кнопку, вы соглашаетесь с политикой конфиденциальности
ICT.Moscow — открытая площадка о цифровых технологиях в Москве. Мы создаем наиболее полную картину развития рынка технологий в городе и за его пределами, помогаем бизнесу следить за главными трендами, не упускать возможности и находить новых партнеров.