Vibethinker — когда три миллиарда параметров достаточно для top-tier reasoning

23.06.2026 · 5 мин

Вот вам странный вопрос: а что если мы всё это время ошибались насчёт размера моделей?

Не то чтобы кто-то прямо говорил «больше = лучше», но вся индустрия последние пару лет двигалась в одну сторону — масштабные нейросети, триллионы токенов тренировочных данных, десятки тысяч GPU-смен для одного запуска обучения.

И тут появляется VibeThinker-3B — модель с тремя миллиардами параметров, которая якобы догоняет и даже обгоняет системы на порядки больше себя в задачах на рассуждение.

Звучит как маркетинговая замануха? Давайте разберёмся.

Что за зверь этот vibethinker

Исследователи опубликовали отчёт на arXiv. Суть в том, что компактная dense-модель с тремя миллиардами параметров проходит специальный пайплайн дообучения и показывает результаты уровня флагманских систем на проверяемых задачах рассуждения.

Речь о математике, генерации кода и логических головоломках — то есть о задачах, где можно объективно проверить правильность ответа.

БЕНЧМАРК                    РЕЗУЛЬТАТ    КОНТЕКСТ
───────────────────────────────────────────────────────
AIME26                      94/100       ~ уровень GPT-o1/Gemini-2
LiveCodeBench v6            80% Pass@1   сильный для compact model
LeetCode recent contests    96%          generalisation подтверждён
IFEval                      93           instruction-following не просело

AIME26 — олимпиадные математические задачи для школьников. LiveCodeBench v6 — тест на генерацию кода на свежих задачах. IFEval — проверка следования инструкциям.

И вот что важно: LeetCode acceptance rate в 96% означает хорошую способность к out-of-distribution generalization — модель не просто запоминает паттерны из тренировочных данных, а реально умеет рассуждать над новыми задачами.

Как они этого добились: sft + grpo

Большинство LLM сейчас дообучают двумя основными путями:

SFT (Supervised Fine-Tuning) — классическое обучение по принципу «правильный ответ = хороший».
RLHF или его варианты (DPO, GRPO) — система учится через обратную связь от reward-модели.

Авторы VibeThinker комбинируют оба подхода.

ДАННЫЕ → CURRICULUM SFT     → MULTI-DOMAIN GRPO   → SELF-DISTILLATION → MODEL
         │                   │                     │                   │
         От простого         RL-награда            Учится на          Финальная
         к сложному          за качество           своих лучших       compact model
                            рассуждений           ответах

Curriculum SFT — обучение от простого к сложному. GRPO — reinforcement learning без отдельной reward-модели. Self-distillation — самообучение на лучших ответах.

Curriculum SFT — это когда данные сортируют от простых к сложным: сначала простые примеры, затем сложнее, потом ещё сложнее.

Multi-domain GRPO нужен, чтобы одна доменная награда не перетягивала поведение модели только в одну сторону. Мультидоменный подход балансирует trade-offs внутри единого optimization loop.

Offline self-distillation — это этап, на котором модель генерирует собственные примеры высококачественных ответов и учится на них повторно. По сути это форма самокоррекции без внешнего учителя.

Насколько реалистичны результаты

Смотрится убедительно, но есть несколько важных оговорок.

Во-первых, это preprint, то есть статья без экспертной проверки.
Во-вторых, сравнения с proprietary-моделями стоит воспринимать осторожно: протоколы тестирования могут отличаться, а в данных возможна контаминация.
В-третьих, 3B параметров всё ещё требуют GPU для инференса — это не замена моделям на телефоне.

Подход выглядит технически обоснованным, но независимая проверка всё ещё нужна.

Что это значит для индустрии

Авторы выдвигают гипотезу: Parametric Compression-Coverage Hypothesis — проверяемое рассуждение можно сжать в компактное ядро, а открытые знания требуют широкого покрытия фактами и концепциями.

Идея проста: там, где ответ можно однозначно проверить, модель может выучить общий метод решения. А вот для открытого домена нужен широкий охват знаний.

Если числа подтвердятся, это будет аргумент в пользу того, что мощные reasoning-системы можно строить при ограниченном compute budget.

Итого: VibeThinker выглядит не как маркетинговая замануха, а как серьёзный аргумент в пользу Compression-Coverage Hypothesis. Но пока это preprint — дождитесь peer review, прежде чем делать выводы.

Ссылки

VibeThinker: 3B param model that beats Opus 4.5 on reasoning with novel SFT+GRPO — препринт с описанием модели и методов обучения.

Дмитрий Полухин — продуктовый дизайнер. Пишу про разработку, AI и дизайн интерфейсов. Обо мне, контакты и профили.

Что за зверь этот vibethinker

Как они этого добились: sft + grpo

Насколько реалистичны результаты

Что это значит для индустрии

Ссылки

Что почитать дальше