
Датасет
∇²DFT (nablaDFT) представляет собой набор данных по квантовым свойствам и 15,7 млн конформаций (пространственных геометрий) атомов в 1,9 млн лекарственных молекул и их аналогов.
Выложенный в открытый доступ датасет предназначен для прогнозирования нейросетями свойств молекул или материалов посредством решения стационарного уравнения Шредингера методом на основе теории функционала плотности (Density Functional Theory, DFT). При таких вычислениях используется подход, при котором на основании предсказанного моделью базового свойства (создателями была выбрана матрица гамильтониана — оператора полной энергии системы) вычисляются все необходимые величины.
Для каждой молекулы из датасета соединений, схожих с лекарственными (MOSES), разработчики посредством метода ETKDG сгенерировали до 100 пространственных структур. Для каждой из конформаций с помощью открытой квантово-химической библиотеки Psi4 были рассчитаны электромеханические свойства, а для 60 тыс. пространственных геометрий были запущены процессы оптимизации энергии. Полные траектории этих процессов были сохранены.
Кроме того, в ∇²DFT включены 10 моделей для предсказания энергии и атомарных сил молекулярной конформации и 3 модели для работы с теорией функционала плотности.
Первая версия датасета (∇DFT) была представлена исследователями из Института AIRI, «Сколтеха» и Санкт-Петербургского отделения Математического института им. В.А. Стеклова (ПОМИ) РАН в декабре 2022 года. Обновленная, более обширная версия датасета — ∇²DFT — вкупе с созданным на ее основе бенчмарком была выпущена в декабре 2024 года.
#искусственный_интеллект#нейросети#машинное_обучение#open_source#квантовые_вычисления
Разработчик:Нажимая на кнопку, вы соглашаетесь с политикой конфиденциальности
ICT.Moscow — открытая площадка о цифровых технологиях в Москве. Мы создаем наиболее полную картину развития рынка технологий в городе и за его пределами, помогаем бизнесу следить за главными трендами, не упускать возможности и находить новых партнеров.