Модель контекстного обучения
Выложенная в открытый доступ модель способна самостоятельно обучаться новым действиям в незнакомой среде на нескольких примерах. Headless-AD умеет выполнять в пять раз больше действий, чем заложено в нее при обучении. Модель может работать с различными типами действий: как теми, на которых ее обучали, так и с теми, с которыми она сталкивается впервые. Порядок взаимодействия не зависит от сочетания или количества последних.
За основу разработчики нейросети взяли модель дистилляции алгоритма (Algorithm Distillation, AD) трансформерной архитектуры. Исследователи отказались от конечного линейного слоя, который ограничивал количество доступных для модели действий, закодировали последние случайными векторами-эмбеддингами (что сделало необязательным дообучение для каждого нового действия) и внедрили контекст о доступных Headless-AD действиях.
Проведенные исследователями эксперименты показали, что модель способна к выполнению любой комбинации и количества действий, при этом сохраняя сравнимое со специализированными нейросетями качество их выполнения и не затрачивая дополнительные вычислительные ресурсы.
Модель была представлена учеными из лаборатории исследований искусственного интеллекта T-Bank AI Research и Института AIRI в июле 2024 года.
Статья в сборнике материалов Международной конференции по машинному обучению (ICML 2024)
Куда движутся российские экосистемы
ICT.Moscow
Нажимая на кнопку, вы соглашаетесь с политикой конфиденциальности
ICT.Moscow — открытая площадка о цифровых технологиях в Москве. Мы создаем наиболее полную картину развития рынка технологий в городе и за его пределами, помогаем бизнесу следить за главными трендами, не упускать возможности и находить новых партнеров.