Обновлено: 01.04.2026 06:00 MSK

Независимый трекер открытых языковых моделей

Отслеживаем релизы открытых LLM и оцениваем их на русскоязычных бенчмарках. Объективно, прозрачно, с открытым кодом.

847 моделей отслеживается
12.4K запусков тестов
98.7% аптайм мониторинга

Рейтинг моделей

Сравнение по MMLU-RU · HumanEval · MT-Bench-RU · средний балл

# Модель Параметры Лицензия MMLU-RU HumanEval MT-Bench-RU Avg
1 LLaMA 4 Scout 109B
Meta
109B Llama 4 91.4 89.6 90.2 90.4
2 DeepSeek V3
DeepSeek
685B MoE MIT 90.1 88.7 89.3 89.4
3 Qwen 2.5 72B Instruct
Alibaba
72B Apache 2.0 89.2 88.1 87.5 88.3
4 LLaMA 3.1 70B Instruct
Meta
70B Llama 3.1 86.8 88.2 85.4 86.8
5 Mistral Large 2
Mistral
123B Apache 2.0 85.6 86.9 85.1 85.9
6 Gemma 2 27B
Google
27B Gemma 83.2 84.5 82.8 83.5
7 Command R+
Cohere
104B CC-BY-NC 82.7 83.1 82.4 82.7
8 Yi-1.5 34B
01.AI
34B Apache 2.0 81.4 80.9 81.2 81.2
9 Saiga LLaMA3 8B
IlyaGusev
8B Apache 2.0 79.8 76.4 80.1 78.8
10 Phi-3 Medium 14B
Microsoft
14B MIT 78.5 79.2 77.1 78.3
11 Mixtral 8x22B
Mistral
141B MoE Apache 2.0 77.9 78.4 76.8 77.7
12 SOLAR 10.7B
Upstage
10.7B Apache 2.0 75.3 76.1 75.8 75.7
13 ruGPT-3.5 13B
SberDevices
13B Apache 2.0 73.1 71.8 75.2 73.4
14 InternLM2 20B
Shanghai AI Lab
20B Apache 2.0 72.4 74.1 71.9 72.8
15 OLMo 7B
AI2
7B Apache 2.0 68.2 65.7 67.4 67.1

Новые модели

за последнюю неделю
LLaMA 4 Scout 109B
Meta AI
28 мар
Первая модель семейства LLaMA 4 с архитектурой MoE. Поддержка контекста до 10M токенов, 17 активных экспертов из 16.
Llama 4 109B MoE
Hugging Face →
Qwen 2.5 72B Instruct
Alibaba Cloud
26 мар
Обновлённая instruct-версия с улучшенным следованием инструкциям и расширенной поддержкой русского языка.
Apache 2.0 72B multilingual
Hugging Face →
Gemma 2 27B IT
Google DeepMind
25 мар
Компактная модель с высокой эффективностью. Новый механизм sliding window attention для работы с длинным контекстом.
Gemma 27B
Hugging Face →
Saiga LLaMA3 8B v2
IlyaGusev
24 мар
Обновлённая русскоязычная fine-tune версия на базе LLaMA 3. Улучшена генерация и понимание сложных инструкций.
Apache 2.0 8B RU
Hugging Face →
Phi-3 Medium 14B
Microsoft Research
23 мар
Средняя модель семейства Phi-3 с фокусом на рассуждения и математику. Отличные результаты для своего размера.
MIT 14B
Hugging Face →
InternLM2 20B Chat
Shanghai AI Lab
22 мар
Вторая версия InternLM с поддержкой длинного контекста до 200K токенов и улучшенным code generation.
Apache 2.0 20B 200K ctx
Hugging Face →

О проекте

LLM Bench — независимый open-source проект, отслеживающий экосистему открытых языковых моделей с фокусом на русскоязычные задачи. Мы автоматически собираем данные о новых релизах через Hugging Face API и проводим стандартизированные бенчмарки на русскоязычных датасетах.

Все оценки выполняются на одинаковом оборудовании (8×A100 80GB) с фиксированными параметрами генерации для обеспечения воспроизводимости. Результаты публикуются с полными логами inference, промптами и конфигурацией запуска.

Проект поддерживается сообществом и не аффилирован ни с одним разработчиком моделей. Исходный код, данные и методология полностью открыты — вклад приветствуется через GitHub.

Методология

MMLU-RU
Русскоязычная адаптация MMLU — 14 000 вопросов из 57 областей знаний. Перевод верифицирован носителями языка, формат multiple-choice, 5-shot.
HumanEval
164 задачи на генерацию кода Python. Оценка pass@1 с temperature=0.2 и единой системной инструкцией.
MT-Bench-RU
80 многоходовых диалогов на русском языке. Оценка через GPT-4 judge по шкале 1–10, два хода на каждый вопрос.
Общий балл (Avg)
Среднее арифметическое нормализованных результатов трёх бенчмарков. Нормализация: (score − min) / (max − min) × 100.