Позвольте представить: qwen 3.6 27b

30.06.2026 · 5 мин

Знаете, что меня всегда напрягало в локальных моделях? Они либо слишком слабые, чтобы писать нормальный код, либо настолько прожорливые, что греют квартиру летом и опустошают кошелёк на электричество.

Но недавно наткнулся на обсуждение в Hacker News — и теперь у меня новый фаворит.

Что за зверь такой qwen 3.6 27b

Qwen 3.6 — это семейство моделей от Alibaba Cloud. Внутри два варианта: смешанная модель с экспертами (35B A3B) и плотная модель (27B). Первая быстрее, вторая мощнее. Автор статьи, Piotr Migdał, однозначно рекомендует именно 27B.

И вот почему это важно: для локальной разработки вам нужна модель, которая:

Пишет рабочий код, а не «примерно правильный»
Понимает контекст проекта
Не требует серверного железа уровня NASA

27B укладывается во все три пункта.

Почему именно 27b — золотая середина

Давайте на секунду забудем маркетинговые слоганы и посмотрим на цифры.

РАЗМЕР МОДЕЛИ VS КАЧЕСТВО КОДА
───────────────────────────────
7B   ────▶ [████░░░░░░] маловата для серьёзных задач
14B  ─────▶ [██████░░░░] лучше, но всё ещё компромисс
27B  ─────▶ [██████████] оптимум: качество + локальный запуск
35B+ ─────▶ [██████████] мощнее, но нужен сервер/ферма GPU

Горизонтальная ось: размер модели → вертикальная: качество кода

Модели меньше 20B часто «недоговаривают», а больше 30B уже требуют серьёзного железа

Плотная архитектура (dense) означает, что все параметры модели работают над каждой задачей. Это медленнее, чем mixture-of-experts, где активна только часть «экспертов», но результат предсказуемее и стабильнее.

Автор пишет, что тестировал модель на задачах уровня «создать пакет с нуля» — и она справилась с первого раза. Для сравнения, смешанная 35B A3B проигнорировала инструкцию и запихнула всё в один index.html.

Как это работает в реальности

Вот конкретные примеры из статьи:

Код и пакеты. Попросили создать гексагональный сапёр — модель подняла полноценный Node-пакет через pnpm с первой попытки.

Вёрстка. Друг автора получил работающий лендинг из одного короткого промпта. Реактивность есть, стили по умолчанию приличные.

Творческие задачи. Попросили написать стихи про танец зук и квантовую физику — модель корректно обработала и термины, и рифмы.

Не шедевры, но практически применимо. А ведь год назад такие вещи делал только GPT-4.5 за бешеные деньги.

Запуск локально: без магии, без олламы

Автор категорически рекомендует llama.cpp вместо Ollama — и я его понимаю. Ollama удобен для новичков, но добавляет лишний слой абстракции там, где он не нужен.

Настройка:

llama-server -hf unsloth/Qwen3.6-27B-MTP-GGUF:Q8_0 \
--spec-type draft-mtp -ngl 999 -fa on -c 65536 --port 8080

Разберём ключевые флаги:

Q8_0 — квантование в 8 бит, экономит половину места почти без потери качества
MTP (multi-token prediction) — модель предсказывает несколько токенов вперёд, ускоряя генерацию
-ngl 999 — все слои на GPU
-fa on — flash attention для быстрой обработки контекста
-c 65536 — контекст 64k токенов (при нативных 256k)

После запуска открываете http://127.0.0.1:8080 — и общаетесь напрямую.

СТЕК ЛОКАЛЬНОГО LLM ДЛЯ РАЗРАБОТКИ
───────────────────────────────────
┌─────────┐    ┌──────────┐    ┌───────────┐
│ Вы      │───▶│ llama.cpp│───▶│ Qwen 3.6  │
│ промпт  │    │ server   │    │ 27B Q8    │
└─────────┘    └──────────┘    └───────────┘
                  │                  │
                  ▼                  ▼
           ┌──────────┐       ┌───────────┐
           │ OpenCode │       │ GPU VRAM  │
           │ / Pi /   │       │ ~20GB     │
           │ Hermes   │       └───────────┘
           └──────────┘

Простой стек: llama.cpp + любая IDE/агент = локальный AI-помощник

Для интеграции с OpenCode конфиг элементарный:

{
  "provider": {
    "llama": {
      "baseURL": "http://127.0.0.1:8080/v1",
      "apiKey": "local"
    }
  },
  "model": "llama/qwen3.6-27b"
}

Ограничения: честно о минусах

Буду честен: автор статьи сам признаёт, что модель греется. Физически греется — до плавления коленок.

Для постоянного использования нужны:

GPU с ~20GB VRAM (или несколько карт)
Хорошее охлаждение
Готовность к шуму кулеров

Если у вас скромная видеокарта или ноутбук без дискретного GPU — этот вариант не для вас.

Также стоит понимать: это не замена Claude Opus или GPT-4o для сложных архитектурных решений. Это повседневный помощник для рутины: форматирование кода, небольшие фичи, документация.

Итог: стоит ли оно того?

Qwen 3.6 27B — это первая локальная модель, которая закрывает реальные задачи разработчика без продакшн-инфраструктуры.

Качество кода достаточное для ежедневной работы. Запуск простой. Стоимость — только железо, которое у многих уже есть.

Если вы давно хотели AI-помощника без зависимости от облака — попробуйте именно эту связку: llama.cpp + Qwen 3.6 27B + ваша любимая IDE.

P. S. Автор оригинальной статьи Piotr Migdał использовал тепловизор для проверки температуры модели во время работы — и это уровень инженерного перфекционизма, который мне нравится.

Ссылки

Quesma Blog: Qwen 3.6 is awesome — оригинальная статья Piotr Migdał
llama.cpp — инструмент для запуска моделей локально
Hugging Face: unsloth/Qwen3.6-27B-MTP-GGUF: Q8_0 — рекомендуемая квантованная модель
OpenCode — AI-агент для разработки

Дмитрий Полухин — продуктовый дизайнер. Пишу про разработку, AI и дизайн интерфейсов. Обо мне, контакты и профили.

Что за зверь такой qwen 3.6 27b

Почему именно 27b — золотая середина

Как это работает в реальности

Запуск локально: без магии, без олламы

Ограничения: честно о минусах

Итог: стоит ли оно того?

Ссылки

Что почитать дальше