
T-Math
Бенчмарк для LLM
T-Math предназначен для оценки рассуждающих способностей LLM в области математики.
Он содержит 331 задачу Всероссийской олимпиады школьников и Московской олимпиады школьников по математике, проходивших в период с 1998 по 2025 год.
Все задачи были выделены из PDF-файлов с помощью моделей Qwen-VL и вручную проверены оценщиками на соответствие источнику. Среди них были отобраны задания высокой сложности, ответы на которые должны быть представлены в числовом выражении.
Бенчмарк T-Math презентован группой компаний «Т-Технологии» в июле 2025 года. Доступен как открытое ПО.

