За последние пять лет российская отрасль ИИ достигла определенной зрелости, как следствие становится больше сообщений о разработках. Одним из растущих трендов в этом году становятся открытые бенчмарки. С января по ноябрь 2024 года, по подсчетам ICT.Moscow, появилось как минимум 10 таких публикаций по сравнению с 4 в 2023 году.
Изучив эти анонсы и расспросив экспертов, редакция ICT.Moscow попыталась выявить закономерности разработки бенчмарков в нашей стране и понять, увеличится ли их количество в будущем.
Существенная часть опубликованных бенчмарков — задачи для больших языковых моделей (LLM) в области обработки текстов на естественном языке (NLP). На них в настоящий момент обращено все внимание сообщества российских разработчиков, отмечает руководитель группы NLP-исследований MTS AI Валентин Малых.
руководитель группы NLP-исследований MTS AI
Бенчмарки для оценки работы больших мультимодальных моделей существуют пока лишь в основном в заявлениях разработчиков. По состоянию на ноябрь 2024 года известно только о разработанном в октябре командой CV R&D SberDevices бенчмарке для оценки обучения Vision LLM (VLLM) — больших языковых моделей с поддержкой визуальных модальностей. Эти модели работают на стыке компьютерного зрения (CV) и NLP. Закрытый тест на основе промпта бенчмарка JourneyDB проверяет, как VLLM анализируют и понимают видео различной длины.
Отечественные программисты регулярно представляли аналоги бенчмарков исследовательской организации LMSYS, где оценщики-судьи субъектны (как правило, это люди или другие большие языковые модели), в частности LLM Arena, ruMT-Bench и созданный командой Vikhr Models RuArenaGeneral. Активно разрабатывались бенчмарки для эмбеддеров и эмбеддинга — ruMTEB и презентованный командой из МГУ им. М.В. Ломоносова ruSciBench.
Также создавались бенчмарки, проверяющие знания больших языковых моделей о России и ее особенностях. Например, это Шлепа, разработанный все теми же Vikhr Models, и SLAVA, созданный совместно исследователями из Института системного программирования РАН и РАНХиГС. У «Яндекса» также существуют свои бенчмарки для оценки знания российской специфики, говорит руководитель службы аналитики и исследований этой компании Ирина Барская: «Мы с командой профессиональных переводчиков занимаемся как переводом бенчмарков, так и созданием своих культурологических и фактовых бенчмарков». В этом же направлении работает и созданный в НИУ ВШЭ бенчмарк, который оценивает компетентность LLM в области педагогики.
Отдельной тенденцией стало появление бенчмарков, оценивающих работу больших языковых моделей с длинным контекстом. Это, к примеру, созданный учеными из AIRI и МФТИ BABILong, а также LIBRA.
В настоящем материале рассмотрены подробно бенчмарки, которые были представлены или обновлены в период с конца 2023 года по 2024 год. ICT.Moscow также изучил бенчмарки, созданные с 2020 года, на основе мониторинга собственного Telegram-канала об ИИ и открытых источников. Ознакомиться с полным списком можно по ссылке.
Значительное число появившихся в этом году бенчмарков является переложением широко используемых англоязычных. Чаще всего переводятся датасеты, гораздо реже — непосредственно код.
руководитель группы NLP-исследований MTS AI
Так поступают многие команды разработчиков. К примеру, представленный командой NLP Core R&D SberDevices ruIFEval является переведенным тестом Google IFEval, проверяющим, насколько большие языковые модели способны следовать инструкциям на естественном языке. ruMTEB напрямую встроен в оригинальный тест MTEB. Даже многие метрики обновленного в этом году MERA — бенчмарка для оценки фундаментальных моделей — при заявляемой цели создания «способа независимого, единого, экспертного сравнения русскоязычных моделей» адаптированы или взяты напрямую из признанных академическим сообществом бенчмарков на английском языке.
Бенчмарки, разработанные командами российских вузов, также берут за основу зарубежные метрики: это и ruSciBench (он во многом базируется на SciDocs), и BABILong (его создатели доработали бенчмарк bAbI для задач оценки длинного контекста). Этому есть объяснение, отмечает руководитель группы «Модели с памятью» лаборатории «Когнитивные системы ИИ» Института AIRI Юрий Куратов: «Исследователи со всего мира в основном нацелены на английский язык: он используется как общая площадка для проверки идей. Новые и полезные бенчмарки появляются раньше для английского языка и затем переносятся или адаптируются под русский. Однако не все можно перенести: русский язык значительно отличается от английского, и для него необходимы свои уникальные данные и тесты».
В то же время, по мнению Ирины Барской из «Яндекса», этот путь не лишен недостатков.
руководитель службы аналитики и исследований «Яндекса»
Чаще других в новостях появляются бенчмарки, разработанные командой NLP Core R&D компании SberDevices. Из бенчмарков, о которых стало известно в 2023 и 2024 годах, четыре составляют их проекты: RealCode_eval, ruIFEval, ruMT-Bench, ruMTEB. Кроме того, члены этой команды занимают существенную долю среди разработчиков все тех же MERA и LIBRA. Разработчики из экосистемы «Сбера» приложили руку к созданию в общей сложности 11 бенчмарков. По мнению автора трех русскоязычных бенчмарков, старшего научного сотрудника Института языкознания (ИЯ) РАН Татьяны Шавриной, сложившаяся ситуация объясняется не только наличием в команде большого числа компьютерных лингвистов, но и политикой экосистемы, которая активно популяризирует научную деятельность своих сотрудников.
старший научный сотрудник Института языкознания РАН
Почти все бенчмарки, о которых становится известно, — открытые. При этом за кадром остается гораздо больше закрытых, говорят собеседники ICT.Moscow. Тестирование моделей с привлечением открытых данных — неотъемлемая часть оценки с помощью бенчмарков, но оно пока не может полностью заменить различные формы закрытого тестирования, считает начальник управления экспериментальных систем машинного обучения дивизиона общих сервисов «Салют» SberDevices Сергей Марков.
В то же время у создания открытых бенчмарков есть свои преимущества, отмечает Юрий Куратов из AIRI.
руководитель группы «Модели с памятью» лаборатории «Когнитивные системы ИИ» Института AIRI
Публикуя бенчмарки в открытом доступе, их разработчики подтягивают все российское сообщество, подчеркнул ученый.
Однако перед ними, по мнению Сергея Маркова из SberDevices, в настоящее время стоит тяжелый выбор.
управляющий директор Управления экспериментальных систем машинного обучения SberDevices
Существует множество способов того, как это может случиться, рассказал эксперт. Так, данные бенчмарка могут содержаться в посвященной ему статье. «Из библиотеки препринтов или с сайта научного журнала эти данные попадают сначала, благодаря работе веб-краулеров, в Common Crawl (общедоступный репозиторий данных, собранных в интернете — прим. ред.), а затем — в обучающую выборку новой версии Llama или проприетарной модели от OpenAI», — пояснил Марков.
Однако способы противостоять утечкам у создателей открытых бенчмарков все же есть, указывает Валентин Малых из MTS AI. По его словам, «для борьбы с ними создаются закрытые тестовые множества, сами модели загружаются вместо их выводов. Используются и другие методы». Но, скорее всего, большинство бенчмарков, которые создаются в России, — закрытые, признает эксперт.
руководитель группы NLP-исследований в MTS AI
По такому пути, в частности, решили пойти в «Яндексе», рассказывает Ирина Барская: «Мы оцениваем наши модели в первую очередь на реальных прикладных сценариях и собираем систему специальных замеров под эти нужды: как автоматические бенчмарки, так и задачи для оценки экспертами. Для оценки мы собираем наборы самых разных сложных бизнес-задач: от суммаризации документов до автоматизации саппорта». Как поясняет эксперт, внутренние бенчмарки и наборы задач разделены по сложности, разнообразию тем и типов задач. «При этом замеры имеют закрытую часть даже от наших разработчиков нейросетей, чтобы не допустить обучения на конкретные примеры и обеспечивать независимость оценки», — продолжает Барская.
По ее мнению, открытые бенчмарки быстро «изживают себя»: они либо за небольшой период времени «протекают» в данные, на которых модели предобучаются (об этом говорят и некоторые академические исследования), либо под их требования оптимизируют модели.
руководитель службы аналитики и исследований «Яндекса»
Коллега Ирины Барской из другой экосистемы — «Сбера» — скептически относится к подобному подходу.
управляющий директор Управления экспериментальных систем машинного обучения SberDevices
Новые бенчмарки в России, несомненно, будут появляться: этому будет способствовать, как минимум, устаревание тестов в силу прогресса новых больших языковых моделей. Развиваться будут и LLM на русском языке, уверена Татьяна Шаврина, ведь «тренд на «суверенность» языковых моделей так же продолжает набирать обороты». Новые бенчмарки на русском не могут, а должны появляться, подчеркивает она.
старший научный сотрудник Института языкознания РАН
При этом какого-то явного флагмана в создании бенчмарков в ближайшем будущем не возникнет, считает эксперт. По ее словам, главная цель хорошего бенчмарка — «справедливо отражать какую-то область действительности»: индустрию, язык либо тип интеллектуальных задач. «Поэтому вносить свой вклад могут как вузы или корпорации, так и независимые команды. Главное, делать процедуру проверки доступной для всех, прозрачной, открытой для методологических улучшений со стороны сообщества», — отмечает Шаврина.
Однако стоящие перед разработчиками бенчмарков проблемы не исчезнут, ведь панацеи против них нет, считает Сергей Марков из SberDevices.
управляющий директор Управления экспериментальных систем машинного обучения SberDevices
Ситуация может измениться, если в область науки о данных будет вкладываться больше ресурсов — как денежных и материальных (в частности, увеличится объем вычислительных мощностей), так и человеческих, уверен Валентин Малых из MTS AI.
руководитель группы NLP-исследований в MTS AI
В то же время некоторые специалисты — в частности, главный аналитик Исследовательского центра прикладных систем искусственного интеллекта МФТИ Игорь Пивоваров — считают, что разработчикам из России не стоит уделять бенчмаркам такое внимание.
главный аналитик Центра искусственного интеллекта МФТИ
Отчасти с ним согласна и Ирина Барская из «Яндекса». «Бенчи — это не то, за чем нужно гнаться в первую очередь», — заявила она в ходе своего выступления на конференции Practical ML Conf 2024.
Значимость бенчмарков уменьшилась, признает Татьяна Шаврина, но, считает эксперт, в обозримом будущем их будет появляться все больше.
Но в целом количество бенчмарков продолжает увеличиваться, они становятся более специализированными, отражающими отдельные аспекты работы языковых моделей: написание кода, использование внешних API, понимание сложных длинных документов и так далее.
старший научный сотрудник Института языкознания РАН
Ниже одним списком приведены все упоминаемые в тексте бенчмарки 2024 года. Они сопровождаются коротким описанием, ссылками на репозитории, контактами разработчиков.
Нажимая на кнопку, вы соглашаетесь с политикой конфиденциальности
ICT.Moscow — открытая площадка о цифровых технологиях в Москве. Мы создаем наиболее полную картину развития рынка технологий в городе и за его пределами, помогаем бизнесу следить за главными трендами, не упускать возможности и находить новых партнеров.