ReBRAC
Метод обучения с подкреплением
ReBRAC (Revisited Behavior Regularized Actor Critic) представляет собой модификацию RAC (Behavior Regularized Actor Critic, актор-критик с контролируемым поведением).
Исследователи выделили четыре компонента обучения искусственного интеллекта с подкреплением, считавшихся второстепенными, — глубину нейросети, регуляризация компонентов ИИ-агентов (действующего актора и оценивающего эти поступки критика), увеличение эффективного горизонта планирования и использование нормализации слоев. Добавление этих элементов в метод BRAC, по заявлению специалистов, позволило обучить ИИ в четыре раза быстрее и на 40% качественнее.
Метод был представлен Tinkoff Research (сейчас – T-Bank AI Research) в декабре 2023 года.