GENA на ICT.Moscow

GENA

Языковая модель

Описание:

Выложенная в общий доступ языковая модель ДНК трансформерной архитектуры обучена на самой полной cборке генома человека — T2T-CHM13. Нейросеть с 110 млн параметров анализирует последовательности ДНК и находит в них закономерности. GENA может принимать от 4,5 тыс. до 36 тыс. пар оснований ДНК. Ее можно использовать для определения влияния мутаций на работу генов, поиска различных участков генома, классификации живых организмов на основе данных секвенирования, синтеза белков и прочих задач.

Также разработаны версии GENA для предсказания сайтов сплайсинга (вырезания из РНК не кодирующих аминокислотную последовательность участков), поиска функциональноважных малых рамок считывания белка (uORF), предсказания наличия промоторов — последовательностей, способных активировать гены.

Модель на основе архитектуры BERT была представлена и выложена в открытый доступ исследователями из Института AIRI в июне 2022 года. В апреле 2023 года была выложена в общий доступ версия, основанная на архитектуре BigBird. В том же году для GENA совместно с учеными из МФТИ была разработана новая архитектура Recurrent Memory Transformer (RMT), которая дает модели потенциальную возможность работать с неограниченной длиной последовательности ДНК. Исследователи заявляют, что для ряда задач архитектура позволяет справляется с длинами последовательности в 1–2 миллиона букв.

Препринт в bioRxiv

Репозиторий на Hugging Face

👤 Ольга Кардымон

Технологии:

#искусственный_интеллект #генеративный_ИИ #нейросети #машинное_обучение #open_source

Разработчик:

#AIRI #МФТИ

Проект запущен:

2022

Контакты:

Сайт:

Cтраница на GitHub

Последнее обновление:18.12.2024

Что такое ICT.Moscow?

ICT.Moscow — открытая площадка о цифровых технологиях в Москве. Мы создаем наиболее полную картину развития рынка технологий в городе и за его пределами, помогаем бизнесу следить за главными трендами, не упускать возможности и находить новых партнеров.

Редакция:
hello@ict.moscow

Сотрудничество:
partners@ict.moscow

Политика конфиденциальности Пользовательское соглашение

Если не указано иное, материалы доступны по лицензии Creative Commons BY 4.0