Метод обучения с подкреплением
ReBRAC (Revisited Behavior Regularized Actor Critic) представляет собой модификацию RAC (Behavior Regularized Actor Critic, актор-критик с контролируемым поведением).
Исследователи выделили четыре компонента обучения искусственного интеллекта с подкреплением, считавшихся второстепенными, — глубину нейросети, регуляризация компонентов ИИ-агентов (действующего актора и оценивающего эти поступки критика), увеличение эффективного горизонта планирования и использование нормализации слоев. Добавление этих элементов в метод BRAC, по заявлению специалистов, позволило обучить ИИ в четыре раза быстрее и на 40% качественнее.
Метод был представлен Tinkoff Research (сейчас – T-Bank AI Research) в декабре 2023 года.
Куда движутся российские экосистемы
ICT.Moscow
Нажимая на кнопку, вы соглашаетесь с политикой конфиденциальности
ICT.Moscow — открытая площадка о цифровых технологиях в Москве. Мы создаем наиболее полную картину развития рынка технологий в городе и за его пределами, помогаем бизнесу следить за главными трендами, не упускать возможности и находить новых партнеров.