ГлавнаяЛента

Подборки карточек

Подборка решений: модели ИИ

19 декабря, 12:28|
893

Декабрь 2024 года ознаменовался значительным числом презентаций моделей искусственного интеллекта: группа «Т-Технологии» представила T-Pro на 32 млрд параметров и обновленную T-Lite на 7 млрд параметров, «Сбер» на своей конференции AI Journey рассказал о новой нейросети Kandinsky 4.0, а Yandex Research создал новую модель для генерации изображений Switti. Стало известно о новых нейросетях, созданных вузами (в частности, НИУ ВШЭ и НИЯУ МИФИ) и стартапами («Сибирские нейросети»).


Московские ИИ-разработчики уже давно активно занимаются созданием различных решений в области машинного обучения. Только крупнейшие цифровые экосистемы, как свидетельствует обзор ICT.Moscow, за последнее время создали как минимум 22 модели.

Эта подборка предназначена для разработчиков различных ИТ-продуктов, в которых могут быть взяты за основу или различным образом использованы модели искусственного интеллекта. В ней собраны 24 карточки от столичных команд и 2 региональных проекта за последние два года.

У каждого решения от московских разработчиков есть персональная карточка на ICT.Moscow. Перейдя по ссылке, в ней можно изучить возможности разработки, узнать, выложена ли та или иная модель в общий доступ, найти дополнительную информацию и контакты разработчиков.

Фрагмент карточки нейросети Switti

Карточки сгруппированы по количеству обрабатываемых модальностей (в порядке убывания) и области применения. Каждый подраздел отсортирован в алфавитном порядке.


Большие мультимодальные модели 

Такие модели принимают на вход и выдают на выход несколько типов данных одновременно. Среди их создателей — Институт AIRI и «Сбер».

  • GigaChat умеет отвечать на вопросы пользователей, поддерживать диалог, писать программный код, создавать тексты, изображения и музыкальные композиции на основе описаний. Существуют три версии модели: выложенная в общий доступ GigaChat Lite для быстрого решения задач, GigaChat Pro и GigaChat MAX. Последняя лучше ориентируется в естественных науках (в частности, в STEM) и работает с более длинным контекстом.
  • Выложенная в открытый доступ OmniFusion способна распознавать и описывать изображения, а также поддерживать визуальный диалог. 

Большие языковые модели

Наиболее известный тип моделей. По запросу пользователя такая нейросеть создает текст. Такие модели, в частности, разрабатывают МТС, «Сбер», «Т-Технологии» и «Яндекс».

  • Главным сценарием применения Cotype является использование в бизнес-целях: подготовка деловых текстов, суммирование содержания переписки, видеоконференции и звонков. Версия Cotype PRO способна работать с длинным контекстом, а выложенные в общий доступ версии Cotype Nano предназначены для работы на пользовательских устройствах. 
  • Выложенная в общий доступ модель mGPT способна создавать тексты на 61 языке 25 языковых семей, среди которых языки стран СНГ и малых народов России. Существуют две версии модели: mGPT 13B и mGPT XL. На основе последней для 23 языков были дообучены отдельные модели.
  • Открытая модель ruGPT-3.5 содержит 13 млрд параметров и умеет продолжать тексты на русском и английском языках, а также на языках программирования. 
  • Выложенная в общий доступ T-Lite задумана как основа для создания русскоязычных приложений: ИИ-ассистентов, интеллектуальных поисковых систем. 
  • T-Pro также общедоступна и предназначена в качестве основы для дальнейшей тонкой настройки под бизнес-задачи или промптинга — использования для конкретных задач с помощью подробных инструкций. 
  • YandexGPT умеет не только отвечать на запросы пользователя, но и (со времени запуска версии YandexGPT 4) выстраивать цепочку рассуждений. 

Большие языковые модели представлены также несколькими разработчиками в других регионах. Так, петербургская компания Just AI сообщала о создании собственной модели JustGPT, а новосибирский стартап «Сибирские нейросети» представил нейросеть Meno, способную анализировать текст по самым разным признакам и исправлять в нем ошибки.


Модели для обработки и генерации видео

Данные модели создают короткие ролики на основании запроса пользователя. Единственную представленную в категории модель разработали Институт AIRI и «Сбер».

  • Модель Kandinsky 4.0 позволяет создавать по кадру или текстовому описанию видеоролики длиной до 12 секунд. Версия Kandinsky 4.0 T2V Flash умеет генерировать ролики по текстовому запросу заметно быстрее, но в меньшем разрешении, а Kandinsky 4.0 V2A может создать к видео синхронную аудиодорожку. 

Модели для обработки и генерации звука

Эти модели решают задачи распознавания речи и ее перевода в текст, определяют эмоции говорящего или, наоборот, на основе запроса создают звук (в том числе музыкальные треки). В данной области более всего активен также «Сбер».

  • GigaAM предобучена на разнообразной русской речи и может быть быстро адаптирована к разным задачам работы со звуком. В частности, были созданы версии GigaAM-CTС и GigaAM-RNNT, предназначенные для распознавания речи, а также GigaAM-Emo для определения эмоций.
  • SymFormer создает музыку на основе текстового запроса. Каждая нота задается последовательностью токенов, а стиль — двумя связками из двух моделей, трансформера и вариационного автоэнкодера. 

Модели для обработки и генерации изображений

Подавляющая часть таких нейросетей создает изображения по текстовому запросу. Среди разработчиков — Институт AIRI, НИЯУ МИФИ, «Яндекс» и «Сбер».

  • Сверточная нейросеть 3D-CGH-Net позволяет создавать голограммы с 16 плоскостями (сечениями трехмерной сцены).
  • Выложенная в общий доступ модель Kandinsky генерирует изображения качеством вплоть до 4K по текстовым запросам на 101 языке и умеет рисовать в более чем 20 стилях. 
  • Выложенная в общий доступ MiVOLO по фотографии человека (даже со спины) выдает предположение о его возрасте и поле и, как заявляют ее создатели, делает это лучше, чем человек. 
  • Общедоступная Switti является авторегрессионной T2I-моделью, создающей изображения на основе текстового запроса посредством суммирования сгенерированных разрешений. 
  • Модель гибридной архитектуры YandexART также создает изображения и анимацию по текстовому запросу. Кроме того, качество текста на изображениях было повышено за счет использования визуально‑текстовой мультимодальной модели. 

Модели-классификаторы

Такие нейросети размечают данные, присваивая им те или иные метки, и таким образом классифицируя их. Представленные здесь модели разработаны структурами «Сбера».

  • Общедоступная модель ESGify структурирует новости по экологическим, социальным и управленческим аспектам (ESG) и определяет, несет ли то или иное событие риск для компании.
  • GigaEmbeddings преобразует текст в его векторное представление. Модель подходит для использования в задачах с применением генерации с дополненной выборкой (RAG).

Модели контекстного обучения с подкреплением

Задача разработанной исследователями из Института AIRI и группы компаний «Т-Технологии» модели — принять в той или иной ситуации оптимальное решение.

  • Выложенная в открытый доступ Headless-AD способна самостоятельно обучаться новым действиям в незнакомой среде на нескольких примерах. 

Модели для научных задач

Подобные модели преимущественно либо заточены под решение узких исследовательских проблем, либо анализируют содержание научных статей. Разрабатывают их, в частности, Институт AIRI, МГУ им. М.В. Ломоносова и НИУ ВШЭ.

  • С помощью ансамблевой модели AIpom можно определить, написан ли фрагмент текста в научной статье искусственным интеллектом. 
  • Модель-трансформер GENA обучена на самой полной cборке генома человека. Нейросеть анализирует последовательности ДНК и находит в них необходимые исследователям закономерности. 
  • Главной задачей полносверточной нейросети LegNet также является анализ генома. Так, она предсказывает области, которые отвечают за экспрессию тех или иных генов.
  • С помощью ProBAN исследователь может проанализировать межатомные взаимодействия в белок-белковых комплексах. 
  • Модель трансформерной архитектуры SciRus-tiny позволяет получать векторные представления научных текстов.

Оценить эти модели можно с помощью специальных тестов и заданий — бенчмарков. Подробно они представлены в посвященной им подборке ICT.Moscow.


Каких релизов стоит ждать в 2025 году 

В 2025 году по подписке станет доступна модель Sechenov Med.AI, позволяющая вычленять данные и ключевые слова из научных статей и аннотаций к ним. Команда Deep VK разрабатывает (и уже успешно протестировала на ряде отечественных бенчмарков) эмбеддер USER (Universal Sentence Encoder for Russian).


Работающие в Москве создатели проектов могут дополнить существующую карточку проекта. Сообщить же о своих новых разработках может любой отечественный автор программного кода. Сделать это можно, написав на hello@ict.moscow.


Расскажите знакомым:

Главное про цифровые технологии в Москве

Нажимая на кнопку, вы соглашаетесь с политикой конфиденциальности

Что такое ICT.Moscow?

ICT.Moscow — открытая площадка о цифровых технологиях в Москве. Мы создаем наиболее полную картину развития рынка технологий в городе и за его пределами, помогаем бизнесу следить за главными трендами, не упускать возможности и находить новых партнеров.



Если не указано иное, материалы доступны по лицензии Creative Commons BY 4.0