Китайская модель kimi k2.6 побеждает в AI coding contest
Меня всегда забавляет, когда кто-то говорит: «Американские модели всё равно впереди». Потому что реальность любит поворачиваться к таким заявлениям спиной. Вот и сейчас — на тебе, Кремниевая долина.
В конце апреля 2026 года прошло кое-что интересное: AI Coding Contest, где энтузиаст Рохан Резель запустил десять больших языковых моделей решать одну и ту же задачу в реальном времени. Словно бойцовский клуб, только вместо кулаков — алгоритмы, а вместо ринга — буквенная головоломка.
Результат? Китайская модель Kimi K2.6 от малоизвестной стартап-компании Moonshot AI разгромила всех. Причём не просто выиграла — вынесла с унизительным счётом 7-1-0. За ней пришла MiMo V2-Pro от Xiaomi. А западные гиганты — ChatGPT, Claude, Gemini — остались позади.
Что это за испытание
Задача называлась Word Gem Puzzle. Представь себе поле 10×10 клеток (или больше — до 30×30), заполненное буквами. Одна клетка пустая. Модель может двигать любую соседнюю букву в пустую клетку — как в классической «пятнашке». Цель — составлять слова по горизонтали или вертикали. Диагонали и обратный порядок не считаются.
Но вот подвох: за короткие слова штрафуют. Слово из трёх букв — минус три очка. Пять букв — минус один. А вот семь и больше — это уже прибыль: длина минус шесть. Восьмибуквенное слово = два очка. То есть модель должна была не просто составлять слова, а выбирать длинные. При этом одно и то же слово можно было «забрать» только один раз — кто первый успел, тот и получил очки.
На маленьком поле (10×10) большинство исходных слов сохранялось. На большом (30×30) поле почти все слова разбивались в ходе перемешивания. И это, как выяснилось, имело огромное значение.
Результаты: кто всех сделал
AI CODING CONTEST — ДЕНЬ 12 ═════════════════════════════ Место │ Модель │ Очки │ Результат ──────┼─────────────────────┼──────┼─────────── 1 │ Kimi K2.6 │ 22 │ 7-1-0 2 │ MiMo V2-Pro │ 20 │ 6-2-0 3 │ ChatGPT GPT-5.5 │ 16 │ 5-1-2 4 │ GLM 5.1 │ 15 │ 5-0-3 5 │ Claude Opus 4.7 │ 12 │ 4-0-4 6 │ Gemini Pro 3.1 │ 9 │ 3-0-5 7 │ Grok Expert 4.2 │ 9 │ 3-0-5 8 │ DeepSeek V4 │ 3 │ 1-0-7 9 │ Muse Spark │ 0 │ 0-0-8 ═════════════════════════════ Примечание: Nvidia Nemotron Super 3 не смог подключиться к серверу
Обратите внимание: первые два места — китайские модели. Западные заняли места с третьего по седьмое. Причём разрыв между лидером и пятым местом — десять очков. Это много, учитывая систему подсчёта.
Но вот что важно: это не история «Китай победил Запад». Это история двух конкретных моделей, которые сделали что-то иначе. Остальные китайские модели — DeepSeek V4 и Muse Spark — провалились. DeepSeek вообще занял предпоследнее место с одним выигрышем в семи раундах.
Почему выиграла kimi
Разбор логов движения показывает интересную картину. Kimi K2.6 использовала агрессивную стратегию: жадный подход (greedy), оценивая каждый ход по тому, какое слово можно составить немедленно. Без долгосрочного планирования. Без построения дерева вариантов на десять ходов вперёд. Просто: увидел возможность — взял.
Это может показаться примитивным. Но в условиях жёсткого таймера (десять секунд реального времени на раунд) глубокий анализ часто не успевал запуститься. А вот быстрые интуитивные ходы — работали.
Кстати, Kimi K2.6 — это модель с открытыми весами (open-weights). Её можно скачать и запустить локально. MiMo V2-Pro от Xiaomi пока доступна только через API, но компания обещает скоро открыть веса для более новой версии V2.5 Pro.
Что это значит для индустрии
Несколько выводов, которые напрашиваются сами:
- Во-первых, размер не всегда главное. Kimi K2.6 — не самая большая модель в мире. Но она лучше других справилась с конкретной задачей. Это напоминает ситуацию с узкими специалистами: универсальный гений может проиграть тому, кто сфокусирован.
- Во-вторых, стратегия важнее ресурсов. Агрессивный жадный алгоритм победил продуманные долгосрочные стратегии. Модель не пыталась «переиграть» соперника — она просто брала максимум здесь и сейчас. Возможно, в условиях жёсткого тайм-лимита это оптимально.
- В-третьих, это не конец истории. Одна головоломка — не приговор. Хочется увидеть те же модели на других задачах: генерация кода, рефакторинг, поиск багов. Возможно, там результаты будут другими.
Вместо вывода
Меня зацепило вот что: победила модель от стартапа, которому три года от роду. Не от Google, не от OpenAI, не от Anthropic. Маленькая команда из Китая сделала продукт, который обошёл модели, в которые вложены миллиарды долларов.
Это не значит, что теперь все китайские модели крутые. DeepSeek V4 и Muse Spark показали, что даже внутри одной страны разброс огромный. Но это значит, что барьер входа в эту гонку ниже, чем казалось.
И ещё: западным компаниям стоит задуматься. Не о том, как «ответить Китаю», а о том, почему их модели проиграли в простой задаче на составление слов. Может, проблема в том, что они оптимизируются под одни метрики, а в реальности нужны другие?
Как минимум — теперь есть о чём спорить за кофе.
Ссылки
- Оригинальная статья на ThinkPol — подробности о соревновании
- Moonshot AI — сайт разработчика Kimi — информация о модели Kimi K2.6
- Xiaomi MiMo на X — официальный твит о MiMo V2-Pro
Дмитрий Полухин — продуктовый дизайнер. Пишу про разработку, AI и дизайн интерфейсов. Обо мне, контакты и профили.