logo DiMA

DiMA

Белковая языковая модель

Описание:

Модель предназначена для генерации никогда не встречавшихся в природе белковых последовательностей.

DiMA представляет собой белковую языковую модель (Protein Language Model, PLM) размером в 35 млн параметров. Модель-трансформер состоит из трех компонентов: предобученного кодировщика (энкодера), создающего представления белков для скрытого (латентного) пространства модели, нейросети, которая методом непрерывной гауссовой диффузии генерирует векторные представления, и декодера, который преобразовывает последние обратно в белковые последовательности.

Модель может создавать первичные структуры как произвольно, так и на основании заданных характеристик: структуры, принадлежности к тому или иному семейству белков и так далее.

Разработчики обучали и тестировали DiMA на датасетах Swiss-Prot и AFDBv4-90, содержащих описания характеристик и структур белков.

Модель DiMA была представлена исследователями из Института AIRI в сентябре 2025 года. Доступна как открытое ПО.


Препринт на arXiv

Репозиторий на GitHub

Страница на GitHub Pages


👤 Павел Страшнов


Участвует в спецпроектах ICT.Moscow:
logo DiMA
Проект запущен:
2025
Последнее обновление:13.11.2025
Главное про цифровые технологии в Москве

Нажимая на кнопку, вы соглашаетесь с политикой конфиденциальности

Что такое ICT.Moscow?

ICT.Moscow — открытая площадка о цифровых технологиях в Москве. Мы создаем наиболее полную картину развития рынка технологий в городе и за его пределами, помогаем бизнесу следить за главными трендами, не упускать возможности и находить новых партнеров.