Отслеживаем релизы открытых LLM и оцениваем их на русскоязычных бенчмарках. Объективно, прозрачно, с открытым кодом.
Сравнение по MMLU-RU · HumanEval · MT-Bench-RU · средний балл
| # | Модель | Параметры | Лицензия | MMLU-RU | HumanEval | MT-Bench-RU | Avg | |
|---|---|---|---|---|---|---|---|---|
| 1 |
LLaMA 4 Scout 109B |
109B | Llama 4 | 91.4 | 89.6 | 90.2 | 90.4 | |
| 2 |
DeepSeek V3 |
685B MoE | MIT | 90.1 | 88.7 | 89.3 | 89.4 | |
| 3 |
Qwen 2.5 72B Instruct |
72B | Apache 2.0 | 89.2 | 88.1 | 87.5 | 88.3 | |
| 4 |
LLaMA 3.1 70B Instruct |
70B | Llama 3.1 | 86.8 | 88.2 | 85.4 | 86.8 | |
| 5 |
Mistral Large 2 |
123B | Apache 2.0 | 85.6 | 86.9 | 85.1 | 85.9 | |
| 6 | Gemma 2 27B |
27B | Gemma | 83.2 | 84.5 | 82.8 | 83.5 | |
| 7 | Command R+ |
104B | CC-BY-NC | 82.7 | 83.1 | 82.4 | 82.7 | |
| 8 | Yi-1.5 34B |
34B | Apache 2.0 | 81.4 | 80.9 | 81.2 | 81.2 | |
| 9 |
Saiga LLaMA3 8B |
8B | Apache 2.0 | 79.8 | 76.4 | 80.1 | 78.8 | |
| 10 |
Phi-3 Medium 14B |
14B | MIT | 78.5 | 79.2 | 77.1 | 78.3 | |
| 11 |
Mixtral 8x22B |
141B MoE | Apache 2.0 | 77.9 | 78.4 | 76.8 | 77.7 | |
| 12 | SOLAR 10.7B |
10.7B | Apache 2.0 | 75.3 | 76.1 | 75.8 | 75.7 | |
| 13 |
ruGPT-3.5 13B |
13B | Apache 2.0 | 73.1 | 71.8 | 75.2 | 73.4 | |
| 14 |
InternLM2 20B |
20B | Apache 2.0 | 72.4 | 74.1 | 71.9 | 72.8 | |
| 15 | OLMo 7B |
7B | Apache 2.0 | 68.2 | 65.7 | 67.4 | 67.1 |
LLM Bench — независимый open-source проект, отслеживающий экосистему открытых языковых моделей с фокусом на русскоязычные задачи. Мы автоматически собираем данные о новых релизах через Hugging Face API и проводим стандартизированные бенчмарки на русскоязычных датасетах.
Все оценки выполняются на одинаковом оборудовании (8×A100 80GB) с фиксированными параметрами генерации для обеспечения воспроизводимости. Результаты публикуются с полными логами inference, промптами и конфигурацией запуска.
Проект поддерживается сообществом и не аффилирован ни с одним разработчиком моделей. Исходный код, данные и методология полностью открыты — вклад приветствуется через GitHub.