logo ruGPT-3.5 13B

ruGPT-3.5 13B

Большая языковая модель

Описание:

Выложенная в общий доступ большая языковая модель ruGPT-3.5 (Russian Generative Pretrained Transformer) содержит 13 млрд параметров, а длина ее контекста составляет 2048 токенов.

Декодерная нейросеть-трансформер на основе разработанной компанией OpenAI архитектуры GPT-3 была обучена на текстовом корпусе размером около 1 Тб на 512 графических процессорах NVIDIA V100 в течение 45 дней. Тонкая настройка модели заняла 20 дней на 200 видеокартах NVIDIA A100. Модель дообучили на коде из датасета The Stack, юридических документах, новостях и обновленных текстах страниц «Википедии».

Она умеет продолжать тексты на русском и английском языках, а также на языках программирования.


ruGPT-3.5 была разработана SberDevices и Sber AI при поддержке Института AIRI и представлена Сбербанком в июле 2023 года. Ее дообученная на инструкциях версия стала основой сервиса GigaChat.


Репозиторий на Hugging Face

Квантизованная версия в Google Colab


👤 Сергей Аверкиев


logo ruGPT-3.5 13B
Проект запущен:
2023
Последнее обновление:09.12.2024
Главное про цифровые технологии в Москве

Нажимая на кнопку, вы соглашаетесь с политикой конфиденциальности

Что такое ICT.Moscow?

ICT.Moscow — открытая площадка о цифровых технологиях в Москве. Мы создаем наиболее полную картину развития рынка технологий в городе и за его пределами, помогаем бизнесу следить за главными трендами, не упускать возможности и находить новых партнеров.



Если не указано иное, материалы доступны по лицензии Creative Commons BY 4.0