GENA
Языковая модель
Выложенная в общий доступ языковая модель ДНК трансформерной архитектуры обучена на самой полной cборке генома человека — T2T-CHM13. Нейросеть с 110 млн параметров анализирует последовательности ДНК и находит в них закономерности. GENA может принимать от 4,5 тыс. до 36 тыс. пар оснований ДНК. Ее можно использовать для определения влияния мутаций на работу генов, поиска различных участков генома, классификации живых организмов на основе данных секвенирования, синтеза белков и прочих задач.
Также разработаны версии GENA для предсказания сайтов сплайсинга (вырезания из РНК не кодирующих аминокислотную последовательность участков), поиска функциональноважных малых рамок считывания белка (uORF), предсказания наличия промоторов — последовательностей, способных активировать гены.
Модель на основе архитектуры BERT была представлена и выложена в открытый доступ исследователями из Института AIRI в июне 2022 года. В апреле 2023 года была выложена в общий доступ версия, основанная на архитектуре BigBird. В том же году для GENA совместно с учеными из МФТИ была разработана новая архитектура Recurrent Memory Transformer (RMT), которая дает модели потенциальную возможность работать с неограниченной длиной последовательности ДНК. Исследователи заявляют, что для ряда задач архитектура позволяет справляется с длинами последовательности в 1–2 миллиона букв.