24
Российский бенчмарк — 2024: переводной и закрытый?
Только за последнюю неделю появилось две новости о российских бенчмарках для оценки моделей ИИ. Пик таких публикаций пришелся на 2024 год.
Большинство открытых тестов проверяют большие языковые модели (LLM) в области обработки текстов на естественном языке. Значительная часть из них является переложением широко используемых англоязычных бенчмарков. Активно анонсировались аналоги бенчмарков LMSYS с оценщиками-судьями, а также бенчмарки для оценки знания российской специфики.
Но несмотря на значительное число представленных в открытом доступе бенчмарков, большая их часть закрыта от посторонних глаз.
Валентин Малых, руководитель группы NLP-исследований MTS AI:
«У каждой компании, которая занимается обработкой данных, есть внутренние бенчмарки. Это стандартная практика: команда, работающая над некоторой задачей, делает для нее бенчмарк. В крупных компаниях таких внутренних бенчмарков могут быть сотни».
Команды разработчиков, компании и целые экосистемы — каждый по-разному видит плюсы и минусы открытых и закрытых бенчмарков и на основе этого видения выбирает свой подход.
Сергей Марков, управляющий директор Управления экспериментальных систем машинного обучения SberDevices:
«Создатели бенчмарков сегодня находятся между Сциллой закрытости (и потенциально связанной с ней предвзятости) и Харибдой утечек тестовых данных в обучающие выборки моделей».
Однако открытым тестам, разработанным российскими командами, прогнозируют дальнейшее увеличение числа.
Татьяна Шаврина, старший научный сотрудник Института языкознания РАН:
«Количество бенчмарков продолжает увеличиваться, они становятся более специализированными, отражающими отдельные аспекты работы языковых моделей: написание кода, использование внешних API, понимание сложных длинных документов».
О тенденциях в разработке бенчмарков для моделей ИИ в новом материале ICT.Moscow →
Только за последнюю неделю появилось две новости о российских бенчмарках для оценки моделей ИИ. Пик таких публикаций пришелся на 2024 год.
Большинство открытых тестов проверяют большие языковые модели (LLM) в области обработки текстов на естественном языке. Значительная часть из них является переложением широко используемых англоязычных бенчмарков. Активно анонсировались аналоги бенчмарков LMSYS с оценщиками-судьями, а также бенчмарки для оценки знания российской специфики.
Но несмотря на значительное число представленных в открытом доступе бенчмарков, большая их часть закрыта от посторонних глаз.
Валентин Малых, руководитель группы NLP-исследований MTS AI:
«У каждой компании, которая занимается обработкой данных, есть внутренние бенчмарки. Это стандартная практика: команда, работающая над некоторой задачей, делает для нее бенчмарк. В крупных компаниях таких внутренних бенчмарков могут быть сотни».
Команды разработчиков, компании и целые экосистемы — каждый по-разному видит плюсы и минусы открытых и закрытых бенчмарков и на основе этого видения выбирает свой подход.
Сергей Марков, управляющий директор Управления экспериментальных систем машинного обучения SberDevices:
«Создатели бенчмарков сегодня находятся между Сциллой закрытости (и потенциально связанной с ней предвзятости) и Харибдой утечек тестовых данных в обучающие выборки моделей».
Однако открытым тестам, разработанным российскими командами, прогнозируют дальнейшее увеличение числа.
Татьяна Шаврина, старший научный сотрудник Института языкознания РАН:
«Количество бенчмарков продолжает увеличиваться, они становятся более специализированными, отражающими отдельные аспекты работы языковых моделей: написание кода, использование внешних API, понимание сложных длинных документов».
О тенденциях в разработке бенчмарков для моделей ИИ в новом материале ICT.Moscow →