
Метод обучения с подкреплением
ReBRAC (Revisited Behavior Regularized Actor Critic) представляет собой модификацию RAC (Behavior Regularized Actor Critic, актор-критик с контролируемым поведением).
Исследователи выделили четыре компонента обучения искусственного интеллекта с подкреплением, считавшихся второстепенными: глубину нейросети, регуляризацию компонентов ИИ-агентов (действующего актора и оценивающего эти поступки критика), увеличение эффективного горизонта планирования и использование нормализации слоев. Добавление этих элементов в метод BRAC, по заявлениям специалистов, позволило обучить ИИ в четыре раза быстрее и на 40% качественнее.
Метод был представлен Tinkoff Research (сейчас — T-Bank AI Research) в декабре 2023 года.
Нажимая на кнопку, вы соглашаетесь с политикой конфиденциальности
ICT.Moscow — открытая площадка о цифровых технологиях в Москве. Мы создаем наиболее полную картину развития рынка технологий в городе и за его пределами, помогаем бизнесу следить за главными трендами, не упускать возможности и находить новых партнеров.