Подход основан на методах оптимизации Trust Region, применяемых в различных областях ИИ. В ходе экспериментов исследователи протестировали его на таких метриках, как AlpacaEval 2.0 и Arena-Hard, которые оценивают способность модели к вежливому общению, решению сложных задач и обобщению знаний. В тестах на бенчмарке AlpacaEval 2.0 метод показал улучшение качества ответов ИИ с 2,3 до 15,1 п. п. по сравнению с классическими подходами: модели стали давать полезные и уместные ответы значительно чаще. В компании отмечают, что таким образом виртуальные ассистенты, чат-боты и другие ИИ-системы смогут работать точнее и эффективнее.
Также специалисты обратили внимание на то, что в процессе обучения языковая модель способна отклоняться от настроек. Чтобы избежать этого, они предложили периодически обновлять «настройки по умолчанию». Такой подход, по их словам, позволит модели отметить ключевые ориентиры и избежать отклонений на пути к целевой точке. По итогам экспериментов модели с Trust Region, обученные на задаче сокращения длинных текстов, улучшили качество на 10–15% по сравнению с традиционными методами.
Карточки решений:
Turbo Alignment
Нажимая на кнопку, вы соглашаетесь с политикой конфиденциальности
ICT.Moscow — открытая площадка о цифровых технологиях в Москве. Мы создаем наиболее полную картину развития рынка технологий в городе и за его пределами, помогаем бизнесу следить за главными трендами, не упускать возможности и находить новых партнеров.