Большая языковая модель
Выложенная в общий доступ большая языковая модель ruGPT-3.5 (Russian Generative Pretrained Transformer) содержит 13 млрд параметров, а длина ее контекста составляет 2048 токенов.
Декодерная нейросеть-трансформер на основе разработанной компанией OpenAI архитектуры GPT-3 была обучена на текстовом корпусе размером около 1 Тб на 512 графических процессорах NVIDIA V100 в течение 45 дней. Тонкая настройка модели заняла 20 дней на 200 видеокартах NVIDIA A100. Модель дообучили на коде из датасета The Stack, юридических документах, новостях и обновленных текстах страниц «Википедии».
Она умеет продолжать тексты на русском и английском языках, а также на языках программирования.
ruGPT-3.5 была разработана SberDevices и Sber AI при поддержке Института AIRI и представлена Сбербанком в июле 2023 года. Ее дообученная на инструкциях версия стала основой сервиса GigaChat.
Квантизованная версия в Google Colab
Куда движутся российские экосистемы
ICT.Moscow
Нажимая на кнопку, вы соглашаетесь с политикой конфиденциальности
ICT.Moscow — открытая площадка о цифровых технологиях в Москве. Мы создаем наиболее полную картину развития рынка технологий в городе и за его пределами, помогаем бизнесу следить за главными трендами, не упускать возможности и находить новых партнеров.