В прошлых подборках ICT.Moscow, посвященных бенчмаркам и моделям искусственного интеллекта, уже фигурировали открытые решения. Теперь же различные инструменты с открытым исходным кодом (Open Source), призванные помочь разработчику при создании собственных ИИ-продуктов, будут освещены более подробно.
ICT.Moscow собрал продукты, созданные и выложенные в общий доступ с декабря 2022 года. Большинство из них (74) представлено разработчиками из Москвы. Шесть продуктов являются региональными проектами.
Среди всех рассмотренных проектов особенно распространены библиотеки и фреймворки (25), позволяющие повысить эффективность работы программиста за счет избавления от необходимости решения рутинных задач. Далее следуют нейросети и бенчмарки (по 20 и 18 соответственно). В открытом доступе появляется немало датасетов (8), на которых можно обучить модели искусственного интеллекта и оценить их работу.
Кроме того, исследователи делятся с сообществом разработчиков методами (6), с помощью которых можно усовершенствовать и оптимизировать работу нейросетей, а также архитектурами (2), на основе которых их можно создать. Также присутствует и платформа (1), которая упрощает управление используемой при обучении моделей инфраструктурой.
Чаще всего авторами открытых инструментов для ИИ являются представители бигтеха, а именно команды «Сбера», «Т-Технологий» и «Яндекса». О высокой степени присутствия ведущих российских цифровых экосистем в сфере ИИ ICT.Moscow уже писал в своем обзоре их публичной активности. Исследователи из Университета ИТМО в сентябре 2024 года также обращали внимание на заметную роль большого технологического бизнеса в развитии отечественного Open Source.
Библиотеки и фреймворки
Наборы готовых классов объектов, решений и функций, необходимых для выполнения определенной задачи. Элементы фреймворков по сравнению с аналогичными у обычных библиотек гораздо более взаимосвязаны между собой и направляют разработчиков при решении задачи в строго определенном направлении. Среди выложивших подобные решения в открытый доступ — Институт AIRI, «Криптонит», МТС, МФТИ, «Сбер», «Сколтех», «Т-Технологии» и «Яндекс».
Работа с данными
- AggMe создан для усреднения разметки данных для моделей компьютерного зрения.
- DataProcessingFramework окажет поддержку в подготовке и фильтрации данных больших датасетов для обучения моделей.
Оптимизация качества обучения нейросетей
- CoolGraph поможет обучить графовые нейросети, используя заранее подготовленные параметры.
- Py-Boost окажет поддержку при использовании градиентного бустинга — алгоритма машинного обучения на табличных данных.
- Посредством Stalactite обучать модели можно на основе данных, которые хранятся на различных устройствах и принадлежат разным владельцам.
- Turbo Alignment предназначена для оптимизации процессов тонкой настройки и выравнивания поведения при обучении больших языковых моделей.
- В XLand-MiniGrid собраны инструменты для контекстного обучения с подкреплением, в частности одноименная среда обучения, в которой модель учится принимать решения и выполнять новые действия.
- Используя XNumPy, разработчик сможет оценить точность вычислений и влияние цифрового шума на нейросеть.
- YaFSDP позволяет ускорить обучение моделей ИИ за счет оптимизации хранения промежуточных весов и вычисления их градиентов.
Сжатие и оптимизация инфраструктуры
- Eco4cast позволяет уменьшить выбросы углекислого газа, производимые во время процесса обучения моделей.
- NNTile позволяет оптимизировать вычисления на графических процессорах при обучении больших нейросетей.
- При помощи SaluteVision Mobile SDK можно встроить модели компьютерного зрения в мобильные приложения на Android и iOS.
Текстовые задачи
- RURAGE помогает оценить работу систем, использующих систему генерации текстов с дополненной выборкой (RAG).
- Yandex Cloud ML SDK помогает в использовании платформы AI Studio, в частности взаимодействовать с моделями и эмбеддингами — векторными представлениями текста.
Работа с рекомендательными системами
- Использование MRGSRec поможет повысить точность работы рекомендательных моделей.
- RePlay позволяет обучать и сравнивать модели для различных рекомендательных задач.
- Во фреймворке Sim4Rec оценка качества рекомендательных систем проводится с помощью генеративной модели, имитирующей поведение покупателя.
Определение эмоций
- Aniemore позволяет программному обеспечению определять эмоциональный фон человека по его речи — как по голосу, так и в тексте.
Другие задачи
- Благодаря RIDE становится возможным сократить область поиска оптимального маршрута.
- StyleFeatureEditor позволяет быстро редактировать фотографии при сохранении качества реконструкции и возможности исправлять итоговый результат. Достигается это за счет нового метода обучения модели StyleGAN.
Подобные проекты разрабатываются не только в Москве: так, библиотеку инструментов для работы с данными движений глаз EyeFeatures создали в Лаборатории социальной и когнитивной информатики НИУ ВШЭ в Санкт-Петербурге. Активно создаются библиотеки, позволяющие создавать продукты на основе больших языковых моделей (Large Language Model, LLM). Ростовский разработчик FractalGPT представил сразу три Open Source — библиотеки (ChatAI, SimpleLLMServer и SharpGPT), позволяющие развернуть чат-боты, а в Университете ИТМО создали решение ProtoLLM для разработки приложений.
Модели искусственного интеллекта
Алгоритмы, которые могут обучаться определенным действиям на основе предоставляемых данных. Выложенные в открытый доступ модели разработаны Институтом AIRI, МГУ им. М.В. Ломоносова, НИУ ВШЭ, «Сбером», «Т-Технологиями», «Яндексом» и Vikhr Models.
Большие мультимодальные модели
- OmniFusion способна распознавать и описывать изображение, а также поддерживать визуальный диалог.
- Vikhr Salt может переводить устную
речь в текст, а текст — в аудио.
Большие языковые модели
- mGPT способна создавать тексты на 61 языке. На основе одной из ее версий для 23 языков были дообучены отдельные модели.
- ruGPT-3.5 умеет продолжать тексты на русском и английском языках, а также на языках программирования.
- T-Lite задумана как основа для создания русскоязычных приложений: ИИ-ассистентов, интеллектуальных поисковых систем.
- T-Pro также общедоступна и предназначена в качестве основы для дальнейшей тонкой настройки под бизнес-задачи или промптинга.
Модели для обработки и генерации звука
- GigaAM может быть адаптирована для распознавания речи и эмоций в ней.
Модели для обработки и генерации изображений
- Kandinsky генерирует изображения качеством вплоть до 4K по текстовым запросам и умеет рисовать в более чем 20 стилях. Исходный код модели вплоть до версии 3.1. выложен в открытый доступ.
- MiVOLO по фотографии человека выдает предположение о его возрасте и поле.
- Switti создает изображения на основе текстового запроса, суммируя сгенерированные ей же разрешения.
- UniDet3D одинаково эффективно распознает трехмерные объекты в разных типах «облаков точек» — полученных сканерами наборов координат.
Модели-классификаторы
- ESGify структурирует новости по экологическим, социальным и управленческим аспектам (ESG) и определяет, несет ли то или иное событие риск для компании.
- GigaEmbeddings преобразует текст в его векторное представление и подходит для использования в задачах с применением генерации с дополненной выборкой (RAG).
Модели контекстного обучения с подкреплением
- Headless-AD способна самостоятельно обучаться новым действиям в незнакомой среде на нескольких примерах.
Модели для научных задач
- AIpom помогает определить, написан ли фрагмент текста в научной статье искусственным интеллектом.
- GENA анализирует последовательности ДНК и находит в них необходимые исследователям закономерности.
- LegNet занимается анализом генома. Так, она предсказывает области, которые отвечают за экспрессию тех или иных генов.
- ProBAN анализирует межатомные взаимодействия в белок-белковых комплексах.
- SciRus-tiny позволяет получать векторные представления научных текстов.
Модели искусственного интеллекта выкладываются в открытый доступ и разработчиками из регионов: так, стартап «Сибирские нейросети» представил модель «Менон» (Meno) на основе Qwen2.5-1.5B-Instruct, способную анализировать текст по самым разным признакам и исправлять в нем ошибки.
Помимо Open Source — нейросетей есть значительное количество предназначенных для коммерческого использования моделей ИИ, созданных российскими командами за последние два года. Ознакомиться с ними можно в этой подборке ICT.Moscow. В ней они классифицированы по типу и сценариям их применения.
Бенчмарки
Наборы данных, тестов и заданий для оценки производительности моделей искусственного интеллекта по различным метрикам. Их разрабатывали Альянс в сфере искусственного интеллекта, Институт AIRI, МГУ им. М.В. Ломоносова, МФТИ, НИУ ВШЭ, «Сбер», РАНХиГС, Институт системного программирования РАН, Vikhr Models.
Подробнее узнать об Open Source — бенчмарках для моделей искусственного интеллекта можно в соответствующей подборке ICT.Moscow.
Датасеты
Обработанные и структурированные наборы данных для обучения и/или тестирования моделей искусственного интеллекта. Ими делились «Сбер», «Сколтех», «Т-Технологии» и «Яндекс».
Визуальные задачи
- Посредством EasyPortrait можно обучить модель компьютерного зрения заменять фон, анализировать лица пользователей сервисов видеоконференций и применять дополнительные эффекты.
- Skoltech3D должен помочь в оценке и обучении алгоритмов для создания 3D-моделей особо сложных для реконструкции поверхностей.
Научные задачи
- ∇²DFT (nablaDFT) содержит квантово-механические свойства малых молекул, которые могут быть применены в медицине. С его помощью можно учить нейросети предсказывать подобные свойства.
- XLand-100B представляет собой подробную запись обучения ИИ-агента в среде XLand-MiniGrid. По задумке создателей его использование поможет удешевить проведение научных исследований, а также поспособствует поиску новых способов обучения моделей ИИ.
Распознавание языка и эмоций
- Bukva поможет выучить русский жестовый язык: в датасете содержатся почти четыре тысячи видеороликов — более чем по сотне для каждой буквы дактильного алфавита.
- Dusha позволит модели выявить в речи говорящего человека три эмоции — счастье, печаль, гнев — или же понять, что он общается в нейтральном тоне.
- Slovo, как и Bukva, содержит информацию по жестам русского жестового языка: 20 тыс. видео, по 20 на 1 тыс. жестов РЖЯ.
Другие задачи
Методы
Наборы действий, процедуры, необходимые для выполнения какой-либо задачи. Их разработкой занимались Институт AIRI, «Т-Технологии» и «Яндекс».
Оптимизация обучения моделей
- Метод ReBRAC позволяет в четыре раза ускорить обучение с подкреплением за счет модификации компонентов, считавшихся второстепенными.
- SAC-RND также призван оптимизировать обучение модели с подкреплением, особенно в разрезе используемых в процессе ресурсов.
- Применение SDDE позволяет модели компьютерного зрения лучше определять на видео объекты, ранее ей неизвестные.
Сжатие моделей
- Использующий два алгоритма — AQLM и PV-tuning — метод позволяет уменьшить большую языковую модель в несколько раз без значительной потери качества ответов.
- Применение регуляризатора LLM Microscope позволяет заменить смежные блоки слоев модели-трансформера на более простые, тем самым облегчив ее.
Борьба с мошенничеством
- Используя PROWN, можно выяснить, была ли модель украдена. Для этого в нейросеть встраиваются наборы триггеров — водяных знаков, которые проявляются при несанкционированном изменении модели.
Архитектуры
План, по которому строится та или иная нейросеть: как выстроены различные слои, как они взаимосвязаны и так далее. Создали и выложили их в открытый доступ Институт AIRI и группа «Т-Технологии».
- С помощью AASIST3 можно создавать модели голосовой биометрии, идентифицирующие людей по голосу и не поддающиеся на его подмену мошенниками.
- ReBased позволяет создавать большие языковые модели, быстро обрабатывающие длинные тексты.
Платформа
В этой категории представлена общедоступная платформа обработки и хранения данных. Создал ее «Яндекс».
- Платформа YTsaurus позволяет управлять кластерами графических процессоров, на которых проводится обучение моделей.
Эту подборку также можно скачать в PDF-версии:
Работающие в Москве разработчики могут дополнить недостающей информацией существующие карточки своих проектов.
Сообщить же о своих новых разработках и/или выложенных в открытый доступ проектах может любой отечественный автор программного кода. Сделать это можно, написав на hello@ict.moscow.
Каких релизов стоит ждать в ближайшем будущем
По заявлениям разработчиков, в открытый доступ будут выложены версии модели Kandinsky 4.0, позволяющие генерировать видео по текстовому запросу и по стартовому кадру соответственно.