Команда энтузиастов — разработчиков проекта LLM Arena — опубликовала результаты опроса о выборе ИИ-специалистами больших языковых моделей (LLM) в 2025 году. Всего в рамках исследования в июле — августе 2025 года было опрошено 45 специалистов с практическим опытом работы с LLM-продуктами. В частности, 45% респондентов связаны с DS/ML-направлением, еще четверть — менеджмент в сфере ИИ.
Ключевые выводы:
- при выборе LLM-модели 82,2% респондентов проводят собственные проверки и используют бенчмарки только как дополнительный инструмент;
- те, кто проводит собственные тесты, используют свои данные и кастомные бенчмарки (26,7%). 17,8% задействуют ручную и качественную оценку, столько же — автоматизированную оценку по метрикам и через пайплайны;
- 26,7% опрошенных принципиально не пользуются бенчмарками. Среди тех, кто все же их применяет, наиболее популярны LMArena (13,3%), LLM Arena (11,1%), Mera (8,9%). Наименее распространены такие инструменты, как MTEB Leaderboard и MMLU/MMLU-Pro, набравшие по 4,4%;
- 82,2% специалистов не прибегают к ресурсам по ИИ/LLM-аналитике;
- 55,6% респондентов при выборе LLM обращают внимание на частоту обсуждений (в статьях, постах), использование в похожих продуктах (55,6%) и количество скачиваний на Hugging Face (48,9%);
- 29% специалистов для принятия решения о выборе LLM не хватает комплексной картины по конкретной модели. Еще 25% говорят о нехватке собственного тестирования под конкретные задачи (25%) и столько же — о реальном применении моделей и отзывах пользователей;
- отмечается также, что наиболее востребованная информация по моделям — это подборки под конкретные задачи (88,9%) и сведения о требованиях для их локального запуска (75,6%). Также респонденты заинтересованы в простых инструментах для быстрого выбора и графиках, наглядно сравнивающих модели по цене, скорости и качеству;
- 68,9% респондентов интересуются уже не отдельными моделями, а более комплексными готовыми решениями;
- среди целей выбора LLM называются баланс качества, цены и скорости, устойчивость без галлюцинаций и встраивание в имеющуюся инфраструктуру.