Китайская модель kimi k2.6 побеждает в AI coding contest

03.05.2026 · 5 мин

Меня всегда забавляет, когда кто-то говорит: «Американские модели всё равно впереди». Потому что реальность любит поворачиваться к таким заявлениям спиной. Вот и сейчас — на тебе, Кремниевая долина.

В конце апреля 2026 года прошло кое-что интересное: AI Coding Contest, где энтузиаст Рохан Резель запустил десять больших языковых моделей решать одну и ту же задачу в реальном времени. Словно бойцовский клуб, только вместо кулаков — алгоритмы, а вместо ринга — буквенная головоломка.

Результат? Китайская модель Kimi K2.6 от малоизвестной стартап-компании Moonshot AI разгромила всех. Причём не просто выиграла — вынесла с унизительным счётом 7-1-0. За ней пришла MiMo V2-Pro от Xiaomi. А западные гиганты — ChatGPT, Claude, Gemini — остались позади.

Что это за испытание

Задача называлась Word Gem Puzzle. Представь себе поле 10×10 клеток (или больше — до 30×30), заполненное буквами. Одна клетка пустая. Модель может двигать любую соседнюю букву в пустую клетку — как в классической «пятнашке». Цель — составлять слова по горизонтали или вертикали. Диагонали и обратный порядок не считаются.

Но вот подвох: за короткие слова штрафуют. Слово из трёх букв — минус три очка. Пять букв — минус один. А вот семь и больше — это уже прибыль: длина минус шесть. Восьмибуквенное слово = два очка. То есть модель должна была не просто составлять слова, а выбирать длинные. При этом одно и то же слово можно было «забрать» только один раз — кто первый успел, тот и получил очки.

На маленьком поле (10×10) большинство исходных слов сохранялось. На большом (30×30) поле почти все слова разбивались в ходе перемешивания. И это, как выяснилось, имело огромное значение.

Результаты: кто всех сделал

AI CODING CONTEST — ДЕНЬ 12
═════════════════════════════
Место │ Модель              │ Очки │ Результат
──────┼─────────────────────┼──────┼───────────
  1   │ Kimi K2.6           │  22  │  7-1-0
  2   │ MiMo V2-Pro         │  20  │  6-2-0
  3   │ ChatGPT GPT-5.5     │  16  │  5-1-2
  4   │ GLM 5.1             │  15  │  5-0-3
  5   │ Claude Opus 4.7     │  12  │  4-0-4
  6   │ Gemini Pro 3.1      │   9  │  3-0-5
  7   │ Grok Expert 4.2     │   9  │  3-0-5
  8   │ DeepSeek V4         │   3  │  1-0-7
  9   │ Muse Spark          │   0  │  0-0-8
═════════════════════════════
Примечание: Nvidia Nemotron Super 3
не смог подключиться к серверу
Итоги соревнования Word Gem Puzzle

Обратите внимание: первые два места — китайские модели. Западные заняли места с третьего по седьмое. Причём разрыв между лидером и пятым местом — десять очков. Это много, учитывая систему подсчёта.

Но вот что важно: это не история «Китай победил Запад». Это история двух конкретных моделей, которые сделали что-то иначе. Остальные китайские модели — DeepSeek V4 и Muse Spark — провалились. DeepSeek вообще занял предпоследнее место с одним выигрышем в семи раундах.

Почему выиграла kimi

Разбор логов движения показывает интересную картину. Kimi K2.6 использовала агрессивную стратегию: жадный подход (greedy), оценивая каждый ход по тому, какое слово можно составить немедленно. Без долгосрочного планирования. Без построения дерева вариантов на десять ходов вперёд. Просто: увидел возможность — взял.

Это может показаться примитивным. Но в условиях жёсткого таймера (десять секунд реального времени на раунд) глубокий анализ часто не успевал запуститься. А вот быстрые интуитивные ходы — работали.

Кстати, Kimi K2.6 — это модель с открытыми весами (open-weights). Её можно скачать и запустить локально. MiMo V2-Pro от Xiaomi пока доступна только через API, но компания обещает скоро открыть веса для более новой версии V2.5 Pro.

Что это значит для индустрии

Несколько выводов, которые напрашиваются сами:

Вместо вывода

Меня зацепило вот что: победила модель от стартапа, которому три года от роду. Не от Google, не от OpenAI, не от Anthropic. Маленькая команда из Китая сделала продукт, который обошёл модели, в которые вложены миллиарды долларов.

Это не значит, что теперь все китайские модели крутые. DeepSeek V4 и Muse Spark показали, что даже внутри одной страны разброс огромный. Но это значит, что барьер входа в эту гонку ниже, чем казалось.

И ещё: западным компаниям стоит задуматься. Не о том, как «ответить Китаю», а о том, почему их модели проиграли в простой задаче на составление слов. Может, проблема в том, что они оптимизируются под одни метрики, а в реальности нужны другие?

Как минимум — теперь есть о чём спорить за кофе.

Ссылки

Дмитрий Полухин — продуктовый дизайнер. Пишу про разработку, AI и дизайн интерфейсов. Обо мне, контакты и профили.