ГлавнаяЛента

Подборки карточек

Подборка решений: инструменты Open Source для разработчиков ИИ

27 января, 09:45|
4784

В прошлых подборках ICT.Moscow, посвященных бенчмаркам и моделям искусственного интеллекта, уже фигурировали открытые решения. Теперь же различные инструменты с открытым исходным кодом (Open Source), призванные помочь разработчику при создании собственных ИИ-продуктов, будут освещены более подробно.

ICT.Moscow собрал продукты, созданные и выложенные в общий доступ с декабря 2022 года. Большинство из них (74) представлено разработчиками из Москвы. Шесть продуктов являются региональными проектами.

Среди всех рассмотренных проектов особенно распространены библиотеки и фреймворки (25), позволяющие повысить эффективность работы программиста за счет избавления от необходимости решения рутинных задач. Далее следуют нейросети и бенчмарки (по 20 и 18 соответственно). В открытом доступе появляется немало датасетов (8), на которых можно обучить модели искусственного интеллекта и оценить их работу.

Кроме того, исследователи делятся с сообществом разработчиков методами (6), с помощью которых можно усовершенствовать и оптимизировать работу нейросетей, а также архитектурами (2), на основе которых их можно создать. Также присутствует и платформа (1), которая упрощает управление используемой при обучении моделей инфраструктурой.

Чаще всего авторами открытых инструментов для ИИ являются представители бигтеха, а именно команды «Сбера», «Т-Технологий» и «Яндекса». О высокой степени присутствия ведущих российских цифровых экосистем в сфере ИИ ICT.Moscow уже писал в своем обзоре их публичной активности. Исследователи из Университета ИТМО в сентябре 2024 года также обращали внимание на заметную роль большого технологического бизнеса в развитии отечественного Open Source.


Библиотеки и фреймворки

Наборы готовых классов объектов, решений и функций, необходимых для выполнения определенной задачи. Элементы фреймворков по сравнению с аналогичными у обычных библиотек гораздо более взаимосвязаны между собой и направляют разработчиков при решении задачи в строго определенном направлении. Среди выложивших подобные решения в открытый доступ — Институт AIRI, «Криптонит», МТС, МФТИ, «Сбер», «Сколтех», «Т-Технологии» и «Яндекс».

Работа с данными

  • AggMe создан для усреднения разметки данных для моделей компьютерного зрения. 
  • DataProcessingFramework окажет поддержку в подготовке и фильтрации данных больших датасетов для обучения моделей.

Оптимизация качества обучения нейросетей

  • CoolGraph поможет обучить графовые нейросети, используя заранее подготовленные параметры.
  • Py-Boost окажет поддержку при использовании градиентного бустинга — алгоритма машинного обучения на табличных данных.
  • Посредством Stalactite обучать модели можно на основе данных, которые хранятся на различных устройствах и принадлежат разным владельцам.
  • Turbo Alignment предназначена для оптимизации процессов тонкой настройки и выравнивания поведения при обучении больших языковых моделей.
  • В XLand-MiniGrid собраны инструменты для контекстного обучения с подкреплением, в частности одноименная среда обучения, в которой модель учится принимать решения и выполнять новые действия.
  • Используя XNumPy, разработчик сможет оценить точность вычислений и влияние цифрового шума на нейросеть.
  • YaFSDP позволяет ускорить обучение моделей ИИ за счет оптимизации хранения промежуточных весов и вычисления их градиентов.

Сжатие и оптимизация инфраструктуры

  • Eco4cast позволяет уменьшить выбросы углекислого газа, производимые во время процесса обучения моделей. 
  • NNTile позволяет оптимизировать вычисления на графических процессорах при обучении больших нейросетей.
  • При помощи SaluteVision Mobile SDK можно встроить модели компьютерного зрения в мобильные приложения на Android и iOS.

Текстовые задачи

  • RURAGE помогает оценить работу систем, использующих систему генерации текстов с дополненной выборкой (RAG).
  • Yandex Cloud ML SDK помогает в использовании платформы AI Studio, в частности взаимодействовать с моделями и эмбеддингами — векторными представлениями текста.

Работа с рекомендательными системами

  • Использование MRGSRec поможет повысить точность работы рекомендательных моделей.
  • RePlay позволяет обучать и сравнивать модели для различных рекомендательных задач.
  • Во фреймворке Sim4Rec оценка качества рекомендательных систем проводится с помощью генеративной модели, имитирующей поведение покупателя.

Определение эмоций

  • Aniemore позволяет программному обеспечению определять эмоциональный фон человека по его речи — как по голосу, так и в тексте. 

Другие задачи

  • Благодаря RIDE становится возможным сократить область поиска оптимального маршрута.
  • StyleFeatureEditor позволяет быстро редактировать фотографии при сохранении качества реконструкции и возможности исправлять итоговый результат. Достигается это за счет нового метода обучения модели StyleGAN.

Подобные проекты разрабатываются не только в Москве: так, библиотеку инструментов для работы с данными движений глаз EyeFeatures создали в Лаборатории социальной и когнитивной информатики НИУ ВШЭ в Санкт-Петербурге. Активно создаются библиотеки, позволяющие создавать продукты на основе больших языковых моделей (Large Language Model, LLM). Ростовский разработчик FractalGPT представил сразу три Open Source — библиотеки (ChatAI, SimpleLLMServer и SharpGPT), позволяющие развернуть чат-боты, а в Университете ИТМО создали решение ProtoLLM для разработки приложений.


Модели искусственного интеллекта

Алгоритмы, которые могут обучаться определенным действиям на основе предоставляемых данных. Выложенные в открытый доступ модели разработаны Институтом AIRI, МГУ им. М.В. Ломоносова, НИУ ВШЭ, «Сбером», «Т-Технологиями», «Яндексом» и Vikhr Models.

Большие мультимодальные модели

  • OmniFusion способна распознавать и описывать изображение, а также поддерживать визуальный диалог.
  • Vikhr Salt может переводить устную речь в текст, а текст — в аудио.    

Большие языковые модели

  • mGPT способна создавать тексты на 61 языке. На основе одной из ее версий для 23 языков были дообучены отдельные модели.
  • ruGPT-3.5 умеет продолжать тексты на русском и английском языках, а также на языках программирования. 
  • T-Lite задумана как основа для создания русскоязычных приложений: ИИ-ассистентов, интеллектуальных поисковых систем. 
  • T-Pro также общедоступна и предназначена в качестве основы для дальнейшей тонкой настройки под бизнес-задачи или промптинга.    

Модели для обработки и генерации звука

  • GigaAM может быть адаптирована для распознавания речи и эмоций в ней.

Модели для обработки и генерации изображений

  • Kandinsky генерирует изображения качеством вплоть до 4K по текстовым запросам и умеет рисовать в более чем 20 стилях. Исходный код модели вплоть до версии 3.1. выложен в открытый доступ. 
  • MiVOLO по фотографии человека выдает предположение о его возрасте и поле. 
  • Switti создает изображения на основе текстового запроса, суммируя сгенерированные ей же разрешения. 
  • UniDet3D одинаково эффективно распознает трехмерные объекты в разных типах «облаков точек» — полученных сканерами наборов координат.

Модели-классификаторы

  • ESGify структурирует новости по экологическим, социальным и управленческим аспектам (ESG) и определяет, несет ли то или иное событие риск для компании.
  • GigaEmbeddings преобразует текст в его векторное представление и подходит для использования в задачах с применением генерации с дополненной выборкой (RAG).

Модели контекстного обучения с подкреплением

  • Headless-AD способна самостоятельно обучаться новым действиям в незнакомой среде на нескольких примерах.

Модели для научных задач

  • AIpom помогает определить, написан ли фрагмент текста в научной статье искусственным интеллектом. 
  • GENA анализирует последовательности ДНК и находит в них необходимые исследователям закономерности. 
  • LegNet занимается анализом генома. Так, она предсказывает области, которые отвечают за экспрессию тех или иных генов.
  • ProBAN анализирует межатомные взаимодействия в белок-белковых комплексах. 
  • SciRus-tiny позволяет получать векторные представления научных текстов.

Модели искусственного интеллекта выкладываются в открытый доступ и разработчиками из регионов: так, стартап «Сибирские нейросети» представил модель «Менон» (Meno) на основе Qwen2.5-1.5B-Instruct, способную анализировать текст по самым разным признакам и исправлять в нем ошибки.

Помимо Open Source — нейросетей есть значительное количество предназначенных для коммерческого использования моделей ИИ, созданных российскими командами за последние два года. Ознакомиться с ними можно в этой подборке ICT.Moscow. В ней они классифицированы по типу и сценариям их применения.


Бенчмарки

Наборы данных, тестов и заданий для оценки производительности моделей искусственного интеллекта по различным метрикам. Их разрабатывали Альянс в сфере искусственного интеллекта, Институт AIRI, МГУ им. М.В. Ломоносова, МФТИ, НИУ ВШЭ, «Сбер», РАНХиГС, Институт системного программирования РАН, Vikhr Models.

Подробнее узнать об Open Source — бенчмарках для моделей искусственного интеллекта можно в соответствующей подборке ICT.Moscow.


Датасеты

Обработанные и структурированные наборы данных для обучения и/или тестирования моделей искусственного интеллекта. Ими делились «Сбер», «Сколтех», «Т-Технологии» и «Яндекс».

Визуальные задачи

  • Посредством EasyPortrait можно обучить модель компьютерного зрения заменять фон, анализировать лица пользователей сервисов видеоконференций и применять дополнительные эффекты.
  • Skoltech3D должен помочь в оценке и обучении алгоритмов для создания 3D-моделей особо сложных для реконструкции поверхностей.

Научные задачи

  • ∇²DFT (nablaDFT) содержит квантово-механические свойства малых молекул, которые могут быть применены в медицине. С его помощью можно учить нейросети предсказывать подобные свойства. 
  • XLand-100B представляет собой подробную запись обучения ИИ-агента в среде XLand-MiniGrid. По задумке создателей его использование поможет удешевить проведение научных исследований, а также  поспособствует поиску новых способов обучения моделей ИИ.

Распознавание языка и эмоций

  • Bukva поможет выучить русский жестовый язык: в датасете содержатся почти четыре тысячи видеороликов — более чем по сотне для каждой буквы дактильного алфавита.
  • Dusha позволит модели выявить в речи говорящего человека три эмоции — счастье, печаль, гнев — или же понять, что он общается в нейтральном тоне. 
  • Slovo, как и Bukva, содержит информацию по жестам русского жестового языка: 20 тыс. видео, по 20 на 1 тыс. жестов РЖЯ. 

Другие задачи

  • В Geo Reviews Dataset 2023 собраны отзывы о различных организациях на «Яндекс Картах».

Методы

Наборы действий, процедуры, необходимые для выполнения какой-либо задачи. Их разработкой занимались Институт AIRI, «Т-Технологии» и «Яндекс».

Оптимизация обучения моделей

  • Метод ReBRAC позволяет в четыре раза ускорить обучение с подкреплением за счет модификации компонентов, считавшихся второстепенными.
  • SAC-RND также призван оптимизировать обучение модели с подкреплением, особенно в разрезе используемых в процессе ресурсов.
  • Применение SDDE позволяет модели компьютерного зрения лучше определять на видео объекты, ранее ей неизвестные.

Сжатие моделей

  • Использующий два алгоритма — AQLM и PV-tuning — метод позволяет уменьшить большую языковую модель в несколько раз без значительной потери качества ответов.
  • Применение регуляризатора LLM Microscope позволяет заменить смежные блоки слоев модели-трансформера на более простые, тем самым облегчив ее.

Борьба с мошенничеством

  • Используя PROWN, можно выяснить, была ли модель украдена. Для этого в нейросеть встраиваются наборы триггеров — водяных знаков, которые проявляются при несанкционированном изменении модели.

Архитектуры

План, по которому строится та или иная нейросеть: как выстроены различные слои, как они взаимосвязаны и так далее. Создали и выложили их в открытый доступ Институт AIRI и группа «Т-Технологии».

  • С помощью AASIST3 можно создавать модели голосовой биометрии, идентифицирующие людей по голосу и не поддающиеся на его подмену мошенниками.
  • ReBased позволяет создавать большие языковые модели, быстро обрабатывающие длинные тексты.

Платформа

В этой категории представлена общедоступная платформа обработки и хранения данных. Создал ее «Яндекс».

  • Платформа YTsaurus позволяет управлять кластерами графических процессоров, на которых проводится обучение моделей. 

Эту подборку также можно скачать в PDF-версии:


Работающие в Москве разработчики могут дополнить недостающей информацией существующие карточки своих проектов.

Сообщить же о своих новых разработках и/или выложенных в открытый доступ проектах может любой отечественный автор программного кода. Сделать это можно, написав на hello@ict.moscow.

Каких релизов стоит ждать в ближайшем будущем 

По заявлениям разработчиков, в открытый доступ будут выложены версии модели Kandinsky 4.0, позволяющие генерировать видео по текстовому запросу и по стартовому кадру соответственно.


Расскажите знакомым:

Главное про цифровые технологии в Москве

Нажимая на кнопку, вы соглашаетесь с политикой конфиденциальности

Что такое ICT.Moscow?

ICT.Moscow — открытая площадка о цифровых технологиях в Москве. Мы создаем наиболее полную картину развития рынка технологий в городе и за его пределами, помогаем бизнесу следить за главными трендами, не упускать возможности и находить новых партнеров.



Если не указано иное, материалы доступны по лицензии Creative Commons BY 4.0