Vibethinker — когда три миллиарда параметров достаточно для top-tier reasoning
Вот вам странный вопрос: а что если мы всё это время ошибались насчёт размера моделей?
Не то чтобы кто-то прямо говорил «больше = лучше», но вся индустрия последние пару лет двигалась в одну сторону — масштабные нейросети, триллионы токенов тренировочных данных, десятки тысяч GPU-смен для одного запуска обучения.
И тут появляется VibeThinker-3B — модель с тремя миллиардами параметров, которая якобы догоняет и даже обгоняет системы на порядки больше себя в задачах на рассуждение.
Звучит как маркетинговая замануха? Давайте разберёмся.
Что за зверь этот vibethinker
Исследователи опубликовали отчёт на arXiv. Суть в том, что компактная dense-модель с тремя миллиардами параметров проходит специальный пайплайн дообучения и показывает результаты уровня флагманских систем на проверяемых задачах рассуждения.
Речь о математике, генерации кода и логических головоломках — то есть о задачах, где можно объективно проверить правильность ответа.
БЕНЧМАРК РЕЗУЛЬТАТ КОНТЕКСТ ─────────────────────────────────────────────────────── AIME26 94/100 ~ уровень GPT-o1/Gemini-2 LiveCodeBench v6 80% Pass@1 сильный для compact model LeetCode recent contests 96% generalisation подтверждён IFEval 93 instruction-following не просело
И вот что важно: LeetCode acceptance rate в 96% означает хорошую способность к out-of-distribution generalization — модель не просто запоминает паттерны из тренировочных данных, а реально умеет рассуждать над новыми задачами.
Как они этого добились: sft + grpo
Большинство LLM сейчас дообучают двумя основными путями:
- SFT (Supervised Fine-Tuning) — классическое обучение по принципу «правильный ответ = хороший».
- RLHF или его варианты (DPO, GRPO) — система учится через обратную связь от reward-модели.
Авторы VibeThinker комбинируют оба подхода.
ДАННЫЕ → CURRICULUM SFT → MULTI-DOMAIN GRPO → SELF-DISTILLATION → MODEL
│ │ │ │
От простого RL-награда Учится на Финальная
к сложному за качество своих лучших compact model
рассуждений ответах
Curriculum SFT — это когда данные сортируют от простых к сложным: сначала простые примеры, затем сложнее, потом ещё сложнее.
Multi-domain GRPO нужен, чтобы одна доменная награда не перетягивала поведение модели только в одну сторону. Мультидоменный подход балансирует trade-offs внутри единого optimization loop.
Offline self-distillation — это этап, на котором модель генерирует собственные примеры высококачественных ответов и учится на них повторно. По сути это форма самокоррекции без внешнего учителя.
Насколько реалистичны результаты
Смотрится убедительно, но есть несколько важных оговорок.
- Во-первых, это preprint, то есть статья без экспертной проверки.
- Во-вторых, сравнения с proprietary-моделями стоит воспринимать осторожно: протоколы тестирования могут отличаться, а в данных возможна контаминация.
- В-третьих, 3B параметров всё ещё требуют GPU для инференса — это не замена моделям на телефоне.
Подход выглядит технически обоснованным, но независимая проверка всё ещё нужна.
Что это значит для индустрии
Авторы выдвигают гипотезу: Parametric Compression-Coverage Hypothesis — проверяемое рассуждение можно сжать в компактное ядро, а открытые знания требуют широкого покрытия фактами и концепциями.
Идея проста: там, где ответ можно однозначно проверить, модель может выучить общий метод решения. А вот для открытого домена нужен широкий охват знаний.
Если числа подтвердятся, это будет аргумент в пользу того, что мощные reasoning-системы можно строить при ограниченном compute budget.
Итого: VibeThinker выглядит не как маркетинговая замануха, а как серьёзный аргумент в пользу Compression-Coverage Hypothesis. Но пока это preprint — дождитесь peer review, прежде чем делать выводы.
Ссылки
- VibeThinker: 3B param model that beats Opus 4.5 on reasoning with novel SFT+GRPO — препринт с описанием модели и методов обучения.
Дмитрий Полухин — продуктовый дизайнер. Пишу про разработку, AI и дизайн интерфейсов. Обо мне, контакты и профили.