Vibethinker — когда три миллиарда параметров достаточно для top-tier reasoning

23.06.2026 · 5 мин

Вот вам странный вопрос: а что если мы всё это время ошибались насчёт размера моделей?

Не то чтобы кто-то прямо говорил «больше = лучше», но вся индустрия последние пару лет двигалась в одну сторону — масштабные нейросети, триллионы токенов тренировочных данных, десятки тысяч GPU-смен для одного запуска обучения.

И тут появляется VibeThinker-3B — модель с тремя миллиардами параметров, которая якобы догоняет и даже обгоняет системы на порядки больше себя в задачах на рассуждение.

Звучит как маркетинговая замануха? Давайте разберёмся.

Что за зверь этот vibethinker

Исследователи опубликовали отчёт на arXiv. Суть в том, что компактная dense-модель с тремя миллиардами параметров проходит специальный пайплайн дообучения и показывает результаты уровня флагманских систем на проверяемых задачах рассуждения.

Речь о математике, генерации кода и логических головоломках — то есть о задачах, где можно объективно проверить правильность ответа.

БЕНЧМАРК                    РЕЗУЛЬТАТ    КОНТЕКСТ
───────────────────────────────────────────────────────
AIME26                      94/100       ~ уровень GPT-o1/Gemini-2
LiveCodeBench v6            80% Pass@1   сильный для compact model
LeetCode recent contests    96%          generalisation подтверждён
IFEval                      93           instruction-following не просело
AIME26 — олимпиадные математические задачи для школьников. LiveCodeBench v6 — тест на генерацию кода на свежих задачах. IFEval — проверка следования инструкциям.

И вот что важно: LeetCode acceptance rate в 96% означает хорошую способность к out-of-distribution generalization — модель не просто запоминает паттерны из тренировочных данных, а реально умеет рассуждать над новыми задачами.

Как они этого добились: sft + grpo

Большинство LLM сейчас дообучают двумя основными путями:

Авторы VibeThinker комбинируют оба подхода.

ДАННЫЕ → CURRICULUM SFT     → MULTI-DOMAIN GRPO   → SELF-DISTILLATION → MODEL
         │                   │                     │                   │
         От простого         RL-награда            Учится на          Финальная
         к сложному          за качество           своих лучших       compact model
                            рассуждений           ответах
Curriculum SFT — обучение от простого к сложному. GRPO — reinforcement learning без отдельной reward-модели. Self-distillation — самообучение на лучших ответах.

Curriculum SFT — это когда данные сортируют от простых к сложным: сначала простые примеры, затем сложнее, потом ещё сложнее.

Multi-domain GRPO нужен, чтобы одна доменная награда не перетягивала поведение модели только в одну сторону. Мультидоменный подход балансирует trade-offs внутри единого optimization loop.

Offline self-distillation — это этап, на котором модель генерирует собственные примеры высококачественных ответов и учится на них повторно. По сути это форма самокоррекции без внешнего учителя.

Насколько реалистичны результаты

Смотрится убедительно, но есть несколько важных оговорок.

Подход выглядит технически обоснованным, но независимая проверка всё ещё нужна.

Что это значит для индустрии

Авторы выдвигают гипотезу: Parametric Compression-Coverage Hypothesis — проверяемое рассуждение можно сжать в компактное ядро, а открытые знания требуют широкого покрытия фактами и концепциями.

Идея проста: там, где ответ можно однозначно проверить, модель может выучить общий метод решения. А вот для открытого домена нужен широкий охват знаний.

Если числа подтвердятся, это будет аргумент в пользу того, что мощные reasoning-системы можно строить при ограниченном compute budget.

Итого: VibeThinker выглядит не как маркетинговая замануха, а как серьёзный аргумент в пользу Compression-Coverage Hypothesis. Но пока это preprint — дождитесь peer review, прежде чем делать выводы.

Ссылки

Дмитрий Полухин — продуктовый дизайнер. Пишу про разработку, AI и дизайн интерфейсов. Обо мне, контакты и профили.