Декабрь 2024 года ознаменовался значительным числом презентаций моделей искусственного интеллекта: группа «Т-Технологии» представила T-Pro на 32 млрд параметров и обновленную T-Lite на 7 млрд параметров, «Сбер» на своей конференции AI Journey рассказал о новой нейросети Kandinsky 4.0, а Yandex Research создал новую модель для генерации изображений Switti. Стало известно о новых нейросетях, созданных вузами (в частности, НИУ ВШЭ и НИЯУ МИФИ) и стартапами («Сибирские нейросети»).
Московские ИИ-разработчики уже давно активно занимаются созданием различных решений в области машинного обучения. Только крупнейшие цифровые экосистемы, как свидетельствует обзор ICT.Moscow, за последнее время создали как минимум 22 модели.
Эта подборка предназначена для разработчиков различных ИТ-продуктов, в которых могут быть взяты за основу или различным образом использованы модели искусственного интеллекта. В ней собраны 24 карточки от столичных команд и 2 региональных проекта за последние два года.
У каждого решения от московских разработчиков есть персональная карточка на ICT.Moscow. Перейдя по ссылке, в ней можно изучить возможности разработки, узнать, выложена ли та или иная модель в общий доступ, найти дополнительную информацию и контакты разработчиков.
Фрагмент карточки нейросети Switti
Карточки сгруппированы по количеству обрабатываемых модальностей (в порядке убывания) и области применения. Каждый подраздел отсортирован в алфавитном порядке.
Большие мультимодальные модели
Такие модели принимают на вход и выдают на выход несколько типов данных одновременно. Среди их создателей — Институт AIRI и «Сбер».
- GigaChat умеет отвечать на вопросы пользователей, поддерживать диалог, писать программный код, создавать тексты, изображения и музыкальные композиции на основе описаний. Существуют три версии модели: выложенная в общий доступ GigaChat Lite для быстрого решения задач, GigaChat Pro и GigaChat MAX. Последняя лучше ориентируется в естественных науках (в частности, в STEM) и работает с более длинным контекстом.
- Выложенная в открытый доступ OmniFusion способна распознавать и описывать изображения, а также поддерживать визуальный диалог.
Большие языковые модели
Наиболее известный тип моделей. По запросу пользователя такая нейросеть создает текст. Такие модели, в частности, разрабатывают МТС, «Сбер», «Т-Технологии» и «Яндекс».
- Главным сценарием применения Cotype является использование в бизнес-целях: подготовка деловых текстов, суммирование содержания переписки, видеоконференции и звонков. Версия Cotype PRO способна работать с длинным контекстом, а выложенные в общий доступ версии Cotype Nano предназначены для работы на пользовательских устройствах.
- Выложенная в общий доступ модель mGPT способна создавать тексты на 61 языке 25 языковых семей, среди которых языки стран СНГ и малых народов России. Существуют две версии модели: mGPT 13B и mGPT XL. На основе последней для 23 языков были дообучены отдельные модели.
- Открытая модель ruGPT-3.5 содержит 13 млрд параметров и умеет продолжать тексты на русском и английском языках, а также на языках программирования.
- Выложенная в общий доступ T-Lite задумана как основа для создания русскоязычных приложений: ИИ-ассистентов, интеллектуальных поисковых систем.
- T-Pro также общедоступна и предназначена в качестве основы для дальнейшей тонкой настройки под бизнес-задачи или промптинга — использования для конкретных задач с помощью подробных инструкций.
- YandexGPT умеет не только отвечать на запросы пользователя, но и (со времени запуска версии YandexGPT 4) выстраивать цепочку рассуждений.
Большие языковые модели представлены также несколькими разработчиками в других регионах. Так, петербургская компания Just AI сообщала о создании собственной модели JustGPT, а новосибирский стартап «Сибирские нейросети» представил нейросеть Meno, способную анализировать текст по самым разным признакам и исправлять в нем ошибки.
Модели для обработки и генерации видео
Данные модели создают короткие ролики на основании запроса пользователя. Единственную представленную в категории модель разработали Институт AIRI и «Сбер».
- Модель Kandinsky 4.0 позволяет создавать по кадру или текстовому описанию видеоролики длиной до 12 секунд. Версия Kandinsky 4.0 T2V Flash умеет генерировать ролики по текстовому запросу заметно быстрее, но в меньшем разрешении, а Kandinsky 4.0 V2A может создать к видео синхронную аудиодорожку.
Модели для обработки и генерации звука
Эти модели решают задачи распознавания речи и ее перевода в текст, определяют эмоции говорящего или, наоборот, на основе запроса создают звук (в том числе музыкальные треки). В данной области более всего активен также «Сбер».
- GigaAM предобучена на разнообразной русской речи и может быть быстро адаптирована к разным задачам работы со звуком. В частности, были созданы версии GigaAM-CTС и GigaAM-RNNT, предназначенные для распознавания речи, а также GigaAM-Emo для определения эмоций.
- SymFormer создает музыку на основе текстового запроса. Каждая нота задается последовательностью токенов, а стиль — двумя связками из двух моделей, трансформера и вариационного автоэнкодера.
Модели для обработки и генерации изображений
Подавляющая часть таких нейросетей создает изображения по текстовому запросу. Среди разработчиков — Институт AIRI, НИЯУ МИФИ, «Яндекс» и «Сбер».
- Сверточная нейросеть 3D-CGH-Net позволяет создавать голограммы с 16 плоскостями (сечениями трехмерной сцены).
- Выложенная в общий доступ модель Kandinsky генерирует изображения качеством вплоть до 4K по текстовым запросам на 101 языке и умеет рисовать в более чем 20 стилях.
- Выложенная в общий доступ MiVOLO по фотографии человека (даже со спины) выдает предположение о его возрасте и поле и, как заявляют ее создатели, делает это лучше, чем человек.
- Общедоступная Switti является авторегрессионной T2I-моделью, создающей изображения на основе текстового запроса посредством суммирования сгенерированных разрешений.
- Модель гибридной архитектуры YandexART также создает изображения и анимацию по текстовому запросу. Кроме того, качество текста на изображениях было повышено за счет использования визуально‑текстовой мультимодальной модели.
Модели-классификаторы
Такие нейросети размечают данные, присваивая им те или иные метки, и таким образом классифицируя их. Представленные здесь модели разработаны структурами «Сбера».
- Общедоступная модель ESGify структурирует новости по экологическим, социальным и управленческим аспектам (ESG) и определяет, несет ли то или иное событие риск для компании.
- GigaEmbeddings преобразует текст в его векторное представление. Модель подходит для использования в задачах с применением генерации с дополненной выборкой (RAG).
Модели контекстного обучения с подкреплением
Задача разработанной исследователями из Института AIRI и группы компаний «Т-Технологии» модели — принять в той или иной ситуации оптимальное решение.
- Выложенная в открытый доступ Headless-AD способна самостоятельно обучаться новым действиям в незнакомой среде на нескольких примерах.
Модели для научных задач
Подобные модели преимущественно либо заточены под решение узких исследовательских проблем, либо анализируют содержание научных статей. Разрабатывают их, в частности, Институт AIRI, МГУ им. М.В. Ломоносова и НИУ ВШЭ.
- С помощью ансамблевой модели AIpom можно определить, написан ли фрагмент текста в научной статье искусственным интеллектом.
- Модель-трансформер GENA обучена на самой полной cборке генома человека. Нейросеть анализирует последовательности ДНК и находит в них необходимые исследователям закономерности.
- Главной задачей полносверточной нейросети LegNet также является анализ генома. Так, она предсказывает области, которые отвечают за экспрессию тех или иных генов.
- С помощью ProBAN исследователь может проанализировать межатомные взаимодействия в белок-белковых комплексах.
- Модель трансформерной архитектуры SciRus-tiny позволяет получать векторные представления научных текстов.
Оценить эти модели можно с помощью специальных тестов и заданий — бенчмарков. Подробно они представлены в посвященной им подборке ICT.Moscow.
Каких релизов стоит ждать в 2025 году
В 2025 году по подписке станет доступна модель Sechenov Med.AI, позволяющая вычленять данные и ключевые слова из научных статей и аннотаций к ним. Команда Deep VK разрабатывает (и уже успешно протестировала на ряде отечественных бенчмарков) эмбеддер USER (Universal Sentence Encoder for Russian).
Работающие в Москве создатели проектов могут дополнить существующую карточку проекта. Сообщить же о своих новых разработках может любой отечественный автор программного кода. Сделать это можно, написав на hello@ict.moscow.