
DeathMath
Бенчмарк для больших языковых моделей
Описание:
Выложенный в открытый доступ бенчмарк поможет протестировать и оценить способность больших языковых моделей решать задачи по математике и физике.
DeathMath позволяет проанализировать понимание моделью физических концепций, сравнить производительность разных решений на русскоязычном контенте и оценить улучшение их способностей решать научные задачи.
Бенчмарк был представлен командой Vikhr Models в апреле 2025 года.

120
Последнее обновление:12.05.2025