ГлавнаяЛента

ICT.Moscow

В погоне за «бенчами»: растущая популярность сравнений моделей ИИ

19 ноября, 13:08|
487

За последние пять лет российская отрасль ИИ достигла определенной зрелости, как следствие становится больше сообщений о разработках. Одним из растущих трендов в этом году становятся открытые бенчмарки. С января по ноябрь 2024 года, по подсчетам ICT.Moscow, появилось как минимум 10 таких публикаций по сравнению с 4 в 2023 году.

Изучив эти анонсы и расспросив экспертов, редакция ICT.Moscow попыталась выявить закономерности разработки бенчмарков в нашей стране и понять, увеличится ли их количество в будущем.


От судей до культурологов

Существенная часть опубликованных бенчмарков — задачи для больших языковых моделей (LLM) в области обработки текстов на естественном языке (NLP). На них в настоящий момент обращено все внимание сообщества российских разработчиков, отмечает руководитель группы NLP-исследований MTS AI Валентин Малых.

LLM в своей основе являются моделями для обработки именно текста, поэтому проверяют их способности также на текстовых данных. В этом смысле тенденции по всему миру и в России одинаковые.

Валентин Малых

руководитель группы NLP-исследований MTS AI

Бенчмарки для оценки работы больших мультимодальных моделей существуют пока лишь в основном в заявлениях разработчиков. По состоянию на ноябрь 2024 года известно только о разработанном в октябре командой CV R&D SberDevices бенчмарке для оценки обучения Vision LLM (VLLM) — больших языковых моделей с поддержкой визуальных модальностей. Эти модели работают на стыке компьютерного зрения (CV) и NLP. Закрытый тест на основе промпта бенчмарка JourneyDB проверяет, как VLLM анализируют и понимают видео различной длины.

Отечественные программисты регулярно представляли аналоги бенчмарков исследовательской организации LMSYS, где оценщики-судьи субъектны (как правило, это люди или другие большие языковые модели), в частности LLM Arena, ruMT-Bench и созданный командой Vikhr Models RuArenaGeneral. Активно разрабатывались бенчмарки для эмбеддеров и эмбеддинга — ruMTEB и презентованный командой из МГУ им. М.В. Ломоносова ruSciBench.

Также создавались бенчмарки, проверяющие знания больших языковых моделей о России и ее особенностях. Например, это Шлепа, разработанный все теми же Vikhr Models, и SLAVA, созданный совместно исследователями из Института системного программирования РАН и РАНХиГС. У «Яндекса» также существуют свои бенчмарки для оценки знания российской специфики, говорит руководитель службы аналитики и исследований этой компании Ирина Барская: «Мы с командой профессиональных переводчиков занимаемся как переводом бенчмарков, так и созданием своих культурологических и фактовых бенчмарков». В этом же направлении работает и созданный в НИУ ВШЭ бенчмарк, который оценивает компетентность LLM в области педагогики.

Отдельной тенденцией стало появление бенчмарков, оценивающих работу больших языковых моделей с длинным контекстом. Это, к примеру, созданный учеными из AIRI и МФТИ BABILong, а также LIBRA.

В настоящем материале рассмотрены подробно бенчмарки, которые были представлены или обновлены в период с конца 2023 года по 2024 год. ICT.Moscow также изучил бенчмарки, созданные с 2020 года, на основе мониторинга собственного Telegram-канала об ИИ и открытых источников. Ознакомиться с полным списком можно по ссылке.

Принцип «перевел и закоммитил» 

Значительное число появившихся в этом году бенчмарков является переложением широко используемых англоязычных. Чаще всего переводятся датасеты, гораздо реже — непосредственно код.

Такой подход связан с простотой реализации. Так как методология уже разработана, можно адаптировать как минимум ее, а часто можно перевести (и верифицировать) сами данные.

Валентин Малых

руководитель группы NLP-исследований MTS AI

Так поступают многие команды разработчиков. К примеру, представленный командой NLP Core R&D SberDevices ruIFEval является переведенным тестом Google IFEval, проверяющим, насколько большие языковые модели способны следовать инструкциям на естественном языке. ruMTEB напрямую встроен в оригинальный тест MTEB. Даже многие метрики обновленного в этом году MERA — бенчмарка для оценки фундаментальных моделей — при заявляемой цели создания «способа независимого, единого, экспертного сравнения русскоязычных моделей» адаптированы или взяты напрямую из признанных академическим сообществом бенчмарков на английском языке.

Бенчмарки, разработанные командами российских вузов, также берут за основу зарубежные метрики: это и ruSciBench (он во многом базируется на SciDocs), и BABILong (его создатели доработали бенчмарк bAbI для задач оценки длинного контекста). Этому есть объяснение, отмечает руководитель группы «Модели с памятью» лаборатории «Когнитивные системы ИИ» Института AIRI Юрий Куратов: «Исследователи со всего мира в основном нацелены на английский язык: он используется как общая площадка для проверки идей. Новые и полезные бенчмарки появляются раньше для английского языка и затем переносятся или адаптируются под русский. Однако не все можно перенести: русский язык значительно отличается от английского, и для него необходимы свои уникальные данные и тесты».

В то же время, по мнению Ирины Барской из «Яндекса», этот путь не лишен недостатков.

Большинство академических бенчмарков сделаны на английском языке. Для их адаптации на русский язык команды часто используют автоматический машинный перевод. Такой подход часто несет в себе ошибки и отсутствие локализации (к примеру, перевод мер измерения из имперской в метрическую).

Ирина Барская

руководитель службы аналитики и исследований «Яндекса»

Чаще других в новостях появляются бенчмарки, разработанные командой NLP Core R&D компании SberDevices. Из бенчмарков, о которых стало известно в 2023 и 2024 годах, четыре составляют их проекты: RealCode_eval, ruIFEval, ruMT-Bench, ruMTEB. Кроме того, члены этой команды занимают существенную долю среди разработчиков все тех же MERA и LIBRA. Разработчики из экосистемы «Сбера» приложили руку к созданию в общей сложности 11 бенчмарков. По мнению автора трех русскоязычных бенчмарков, старшего научного сотрудника Института языкознания (ИЯ) РАН Татьяны Шавриной, сложившаяся ситуация объясняется не только наличием в команде большого числа компьютерных лингвистов, но и политикой экосистемы, которая активно популяризирует научную деятельность своих сотрудников.

Бенчмарки Russian SuperGLUE, Tape, MERA, новые наборы тестов — все это сделано командами «Сбера» и AIRI за последние несколько лет. Сложилось это, в общем-то, из-за, во-первых, продуктивной карьерной траектории компьютерных лингвистов, приходящих в R&D, во-вторых, поддержки публикационной активности и организации сообщества со стороны руководства «Сбера». Но недооценивать сообщества и другие компании не стоит. 

Татьяна Шаврина

старший научный сотрудник Института языкознания РАН

Айсберг российского бенчмаркинга

Почти все бенчмарки, о которых становится известно, — открытые. При этом за кадром остается гораздо больше закрытых, говорят собеседники ICT.Moscow. Тестирование моделей с привлечением открытых данных — неотъемлемая часть оценки с помощью бенчмарков, но оно пока не может полностью заменить различные формы закрытого тестирования, считает начальник управления экспериментальных систем машинного обучения дивизиона общих сервисов «Салют» SberDevices Сергей Марков.

В то же время у создания открытых бенчмарков есть свои преимущества, отмечает Юрий Куратов из AIRI.

Без открытых данных прогресс бы сильно замедлился. Они позволяют собирать бенчмарки из уже существующих данных, которые, возможно, необходимо дополнительно разметить под задачи и способности моделей, которые бенчмарк будет оценивать. В этом и состоит добавочная стоимость бенчмарка. И, конечно, если данные самого бенчмарка открытые, все, кто желает, могут их проверить, найти ошибки, улучшить и использовать в своих задачах. 

Юрий Куратов

руководитель группы «Модели с памятью» лаборатории «Когнитивные системы ИИ» Института AIRI

Публикуя бенчмарки в открытом доступе, их разработчики подтягивают все российское сообщество, подчеркнул ученый.

Однако перед ними, по мнению Сергея Маркова из SberDevices, в настоящее время стоит тяжелый выбор.

Создатели бенчмарков сегодня находятся между Сциллой закрытости (и потенциально связанной с ней предвзятости) и Харибдой утечек тестовых данных в обучающие выборки моделей.

Сергей Марков

управляющий директор Управления экспериментальных систем машинного обучения SberDevices

Существует множество способов того, как это может случиться, рассказал эксперт. Так, данные бенчмарка могут содержаться в посвященной ему статье. «Из библиотеки препринтов или с сайта научного журнала эти данные попадают сначала, благодаря работе веб-краулеров, в Common Crawl (общедоступный репозиторий данных, собранных в интернете — прим. ред.), а затем — в обучающую выборку новой версии Llama или проприетарной модели от OpenAI», — пояснил Марков.

Однако способы противостоять утечкам у создателей открытых бенчмарков все же есть, указывает Валентин Малых из MTS AI. По его словам, «для борьбы с ними создаются закрытые тестовые множества, сами модели загружаются вместо их выводов. Используются и другие методы». Но, скорее всего, большинство бенчмарков, которые создаются в России, — закрытые, признает эксперт.

У каждой компании, которая занимается обработкой данных, есть внутренние бенчмарки. Это стандартная практика: команда, работающая над некоторой задачей, делает для нее бенчмарк. В крупных компаниях таких внутренних бенчмарков могут быть сотни. Так что подавляющее количество бенчмарков — закрытые.

Валентин Малых

руководитель группы NLP-исследований в MTS AI

По такому пути, в частности, решили пойти в «Яндексе», рассказывает Ирина Барская: «Мы оцениваем наши модели в первую очередь на реальных прикладных сценариях и собираем систему специальных замеров под эти нужды: как автоматические бенчмарки, так и задачи для оценки экспертами. Для оценки мы собираем наборы самых разных сложных бизнес-задач: от суммаризации документов до автоматизации саппорта». Как поясняет эксперт, внутренние бенчмарки и наборы задач разделены по сложности, разнообразию тем и типов задач. «При этом замеры имеют закрытую часть даже от наших разработчиков нейросетей, чтобы не допустить обучения на конкретные примеры и обеспечивать независимость оценки», — продолжает Барская.

По ее мнению, открытые бенчмарки быстро «изживают себя»: они либо за небольшой период времени «протекают» в данные, на которых модели предобучаются (об этом говорят и некоторые академические исследования), либо под их требования оптимизируют модели.

С помощью открытых академических бенчмарков можно оценивать некоторые базовые навыки и запоминание различных фактов. Как правило, это не всегда отражает умение модели решать реальные задачи, в том числе и быть полезной в бизнес-сценариях. Кроме того, открытые бенчмарки часто подвержены «протечке» — во время обучения в модель может случайно попасть часть данных из этих тестов. Тогда нейросеть начинает показывать более высокие результаты на них, но это не отражает реальный уровень умности нейросети. В этом состоит одна из сложностей любых бенчмарков. Например, если он открытый, то есть список вопросов и ответов доступен всем, то нейросеть легко обучить решать вопросы из бенчмарка.

Ирина Барская

руководитель службы аналитики и исследований «Яндекса»

Коллега Ирины Барской из другой экосистемы — «Сбера» — скептически относится к подобному подходу.

Использование закрытых бенчмарков способно отчасти решить проблему утечек, но, увы, не является «серебряной пулей». Не забывайте, например, о том, что тесты составляют люди, и источником утечки может легко стать «ИИ-тренер», который поместит в бенчмарк пример, который на самом деле будет похож на пример из какого-либо открытого источника, с которым этот тренер был знаком. Другой пример — закрытый тест использует модель для тестирования через API, в результате вопросы попадают в логи соответствующего сервиса, откуда отправляются в разметку и в обучающую выборку — ведь разработчики знать не знают, что вопрос относится к бенчмарку, а может быть и знать не хотят. При этом использование закрытых бенчмарков порождает ряд других проблем, например проблему доверия к бенчмарку — насколько он безошибочен и репрезентативен — или проблему потенциальной коррупции (почему бы не подкинуть своему, «хорошему», ученику вопросы от грядущей олимпиады?).

Сергей Марков

управляющий директор Управления экспериментальных систем машинного обучения SberDevices

Перспективы русскоязычных бенчмарков

Новые бенчмарки в России, несомненно, будут появляться: этому будет способствовать, как минимум, устаревание тестов в силу прогресса новых больших языковых моделей. Развиваться будут и LLM на русском языке, уверена Татьяна Шаврина, ведь «тренд на «суверенность» языковых моделей так же продолжает набирать обороты». Новые бенчмарки на русском не могут, а должны появляться, подчеркивает она.

Для русского языка своевременное появление бенчмарков совершенно необходимо! Иначе мы с вами будем получать новые модели, переориентированные на усредненные результаты по многим языкам, и качество на русском в среднем просядет.

Татьяна Шаврина

старший научный сотрудник Института языкознания РАН

При этом какого-то явного флагмана в создании бенчмарков в ближайшем будущем не возникнет, считает эксперт. По ее словам, главная цель хорошего бенчмарка — «справедливо отражать какую-то область действительности»: индустрию, язык либо тип интеллектуальных задач. «Поэтому вносить свой вклад могут как вузы или корпорации, так и независимые команды. Главное, делать процедуру проверки доступной для всех, прозрачной, открытой для методологических улучшений со стороны сообщества», — отмечает Шаврина.

Однако стоящие перед разработчиками бенчмарков проблемы не исчезнут, ведь панацеи против них нет, считает Сергей Марков из SberDevices.

В индустрии, скорее всего, будет продолжаться сосуществование открытых и закрытых бенчмарков. В какой-то мере помочь может использование в бенчмарках принципиально «неутекаемых» данных, например тестирование моделей на Out-of-Time-выборках (измерение перплексии языковых моделей на текстах свежих новостей, ведь утечки данных из будущего в прошлое не происходит), различные онлайн-тесты (наподобие Chatbot Arena, хотя при желании в таких тестах также может происходить накрутка или расслепление, например, мы можем в диалоге явно спросить модель, кто она такая, и затем смело ставить предвзятую оценку), постоянно обновляющиеся открытые бенчмарки и так далее.

Сергей Марков

управляющий директор Управления экспериментальных систем машинного обучения SberDevices

Ситуация может измениться, если в область науки о данных будет вкладываться больше ресурсов — как денежных и материальных (в частности, увеличится объем вычислительных мощностей), так и человеческих, уверен Валентин Малых из MTS AI.

Иначе мы просто не можем успеть за коллегами из США и Китая.

Валентин Малых

руководитель группы NLP-исследований в MTS AI

В то же время некоторые специалисты — в частности, главный аналитик Исследовательского центра прикладных систем искусственного интеллекта МФТИ Игорь Пивоваров — считают, что разработчикам из России не стоит уделять бенчмаркам такое внимание.

Заниматься проектированием новых бенчмарков вместо использования существующих, на мой взгляд, — это просто трата времени, учитывая, что шансов стать общим мировым стандартом у бенчмарков, созданных в России, почти нет.

Игорь Пивоваров

главный аналитик Центра искусственного интеллекта МФТИ

Отчасти с ним согласна и Ирина Барская из «Яндекса». «Бенчи — это не то, за чем нужно гнаться в первую очередь», — заявила она в ходе своего выступления на конференции Practical ML Conf 2024.

Значимость бенчмарков уменьшилась, признает Татьяна Шаврина, но, считает эксперт, в обозримом будущем их будет появляться все больше.

Важность бенчмарков за последние годы несколько уменьшилась, потому что стали использоваться другие критерии: то, насколько модели нравятся пользователям, удержание пользователей и трафик. 

Но в целом количество бенчмарков продолжает увеличиваться, они становятся более специализированными, отражающими отдельные аспекты работы языковых моделей: написание кода, использование внешних API, понимание сложных длинных документов и так далее.

Татьяна Шаврина

старший научный сотрудник Института языкознания РАН


Ниже одним списком приведены все упоминаемые в тексте бенчмарки 2024 года. Они сопровождаются коротким описанием, ссылками на репозитории, контактами разработчиков.

  1. MERA (обновление)   
  2. SLAVA
  3. Шлепа
  4. RuArenaGeneral
  5. LIBRA
  6. LLM Arena
  7. ruMTEB
  8. ruMT-Bench
  9. ruIFEval
  10. BABILong


Расскажите знакомым:

Главное про цифровые технологии в Москве

Нажимая на кнопку, вы соглашаетесь с политикой конфиденциальности

Что такое ICT.Moscow?

ICT.Moscow — открытая площадка о цифровых технологиях в Москве. Мы создаем наиболее полную картину развития рынка технологий в городе и за его пределами, помогаем бизнесу следить за главными трендами, не упускать возможности и находить новых партнеров.



Если не указано иное, материалы доступны по лицензии Creative Commons BY 4.0