Kimi K2.5: что умеет конкурент GPT-4 за $0.50 за миллион токенов
Moonshot AI выложили полный technical report на Kimi K2.5. Я прочитал 83 страницы, чтобы вам не пришлось. Цена вопроса — в 5 раз дешевле GPT-4o, но качество на уровне топовых моделей. Как они это делают?
Важно: Отчёт Moonshot датирован началом 2025 года. В статье я привожу данные из отчёта + актуальные цены на февраль 2026.
Kimi K2.5 — это LLM от китайской компании Moonshot AI. Они не гонятся за хайпом в твиттере, а публикуют детальные отчёты с архитектурными деталями. В отчёте — всё: от размера контекстного окна до методов тренировки.
Контекстное окно: 256K токенов
Для сравнения с актуальными моделями февраля 2026:
- GPT-4o — 128K
- Claude 3.5 Sonnet (latest) — 200K
- o3-mini — 200K
- Kimi K2.5 — 256K
Kimi берёт целую книгу и не забывает начало, когда доходит до конца. Это критично для:
- Анализа codebase целиком
- Длинных legal-документов
- Долгих диалогов без потери контекста
Context Window Comparison (токенов) — Февраль 2026 ════════════════════════════════════════════════════════════ GPT-4o ████████████████████████████████ 128K o3-mini ██████████████████████████████████████ 200K Claude 3.5 Sonnet ██████████████████████████████████████ 200K Kimi K2.5 ████████████████████████████████████████████████ 256K Gemini 2.0 Pro ████████████████████████████████████████████████████ 2M Цена за 1M токенов (input) — Февраль 2026: Kimi K2.5 $0.50 ██ GPT-4o $2.50 ██████████ Claude 3.5 $3.00 ████████████████ o3-mini $1.10 ████ o1 $15.00 ████████████████████████████████████████████
Архитектура: Mixture-of-Experts
Kimi использует MoE (Mixture-of-Experts — архитектура, где модель состоит из множества «экспертов», и для каждого токена активируется только часть из них).
Аналогия: вместо одного универсального хирурга — команда специалистов. При проблеме с сердцем вызываете кардиолога, при переломе — травматолога. Не платите всем остальным за простой.
Параметры модели:
- 1 триллион параметров всего
- 32 миллиарда активных на каждый токен
- Экономия вычислений — порядка 30x
Бенчмарки: где лидирует, где отстаёт
Отчёт Moonshot сравнивал с моделями начала 2025. Для актуальности я добавил данные по GPT-4o и o3-mini (февраль 2026).
Где Kimi лучше GPT-4o:
- Long-context QA — понимание длинных документов (256K vs 128K)
- Multilingual — китайский и английский на равных
- Цена — $0.50 vs $2.50 за 1M токенов
Где отстаёт:
- Tool use — работа с внешними API (GPT-4o лучше)
- Complex reasoning — многошаговые логические задачи (o3-mini и o1 сильнее)
- Vision — анализ изображений (GPT-4o лидирует)
MMLU Benchmark (знания и reasoning) — Февраль 2026 ═══════════════════════════════════════════════════════════ o3-mini 86.5% ████████████████████████████████████████ GPT-4o 88.7% ██████████████████████████████████████████ Kimi K2.5 87.2% ████████████████████████████████████████ Claude 3.5 88.5% ██████████████████████████████████████████ HumanEval (код) ═══════════════════════════════════════════════════════════ o3-mini 92.0% ████████████████████████████████████████████ GPT-4o 90.2% ██████████████████████████████████████████ Kimi K2.5 88.4% ███████████████████████████████████████ Claude 3.5 92.0% ████████████████████████████████████████████ Цена-качество (MMLU per $): ═══════════════════════════════════════════════════════════ Kimi K2.5 174 ████████████████████████████████████████████ o3-mini 79 █████████████████████ GPT-4o 35 ██████████ Claude 3.5 30 ████████
Актуальное сравнение: февраль 2026 vs отчёт 2025
В отчёте Moonshot сравнение было с GPT-4 Turbo и Claude 3.5 (старые версии). Сейчас картина изменилась:
| Модель | Контекст | Цена input | MMLU |
|---|---|---|---|
| Kimi K2.5 | 256K | $0.50 | 87.2% |
| GPT-4o | 128K | $2.50 | 88.7% |
| o3-mini | 200K | $1.10 | 86.5% |
| Claude 3.5 Sonnet | 200K | $3.00 | 88.5% |
| o1 | 200K | $15.00 | 92.4% |
Вывод: Kimi остаётся лидером по цена-качеству, но в абсолютном качестве GPT-4o, Claude 3.5 и o3-mini уже на уровень выше.
Честный взгляд на ограничения
Отчёт Moonshot — пример прозрачности. Они сами перечисляют слабые стороны:
- Hallucinations — модель фантазирует на специфических темах
- Safety — фильтры на китайском работают агрессивнее
- Math — сложная математика хуже, чем у o1/o3-mini
- Vision — нет мультимодальности (только текст)
Для кого Kimi K2.5 в 2026 году
Выгодно, если:
- Работаете с длинными документами (юристы, аналитики)
- Нужен API с низкой ценой и высоким лимитом
- Пишете код на Python/Java
- Задачи не требуют сложного reasoning (для этого o3-mini лучше)
Не лучший выбор, если:
- Нужна интеграция с инструментами (function calling) — GPT-4o лучше
- Решаете сложные математические задачи — o1/o3-mini сильнее
- Нужен анализ изображений — GPT-4o или Gemini
- Требуется 100% точность в reasoning — o1
Математика: что купить на $100
На $100 вы получаете (февраль 2026):
- o1: 6.7M input токенов ($15/1M)
- GPT-4o: 40M input токенов ($2.50/1M)
- Claude 3.5: 33M input токенов ($3/1M)
- o3-mini: 91M input токенов ($1.10/1M)
- Kimi K2.5: 200M input токенов ($0.50/1M)
Разница с o1 — 30x. С GPT-4o — 5x.
Выводы (февраль 2026)
Kimi K2.5 остаётся рабочей лошадкой с честными trade-offs. Через год после отчёта картина такая:
Плюсы:
- Лучшая цена на рынке ($0.50)
- Самый большой контекст (256K)
- Открытый technical report
Минусы:
- Уступает o3-mini, GPT-4o, Claude 3.5 в абсолютном качестве
- Нет vision
- Слабее в reasoning по сравнению с o1/o3-mini
Вердикт: Для high-volume задач с длинным контекстом — всё ещё оптимальный выбор. Для сложного reasoning — смотрите на o3-mini или o1.
Ссылки
- Kimi K2.5 Technical Report — полный отчёт от Moonshot AI
- OpenAI Pricing — актуальные цены GPT-4o, o3-mini, o1
- Anthropic Pricing — цены Claude 3.5 Sonnet
- Moonshot AI Platform — API документация
- OpenRouter Kimi — доступ через OpenRouter