Позвольте представить: qwen 3.6 27b

30.06.2026 · 5 мин

Знаете, что меня всегда напрягало в локальных моделях? Они либо слишком слабые, чтобы писать нормальный код, либо настолько прожорливые, что греют квартиру летом и опустошают кошелёк на электричество.

Но недавно наткнулся на обсуждение в Hacker News — и теперь у меня новый фаворит.

Что за зверь такой qwen 3.6 27b

Qwen 3.6 — это семейство моделей от Alibaba Cloud. Внутри два варианта: смешанная модель с экспертами (35B A3B) и плотная модель (27B). Первая быстрее, вторая мощнее. Автор статьи, Piotr Migdał, однозначно рекомендует именно 27B.

И вот почему это важно: для локальной разработки вам нужна модель, которая:

27B укладывается во все три пункта.

Почему именно 27b — золотая середина

Давайте на секунду забудем маркетинговые слоганы и посмотрим на цифры.

РАЗМЕР МОДЕЛИ VS КАЧЕСТВО КОДА
───────────────────────────────
7B   ────▶ [████░░░░░░] маловата для серьёзных задач
14B  ─────▶ [██████░░░░] лучше, но всё ещё компромисс
27B  ─────▶ [██████████] оптимум: качество + локальный запуск
35B+ ─────▶ [██████████] мощнее, но нужен сервер/ферма GPU

Горизонтальная ось: размер модели → вертикальная: качество кода
Модели меньше 20B часто «недоговаривают», а больше 30B уже требуют серьёзного железа

Плотная архитектура (dense) означает, что все параметры модели работают над каждой задачей. Это медленнее, чем mixture-of-experts, где активна только часть «экспертов», но результат предсказуемее и стабильнее.

Автор пишет, что тестировал модель на задачах уровня «создать пакет с нуля» — и она справилась с первого раза. Для сравнения, смешанная 35B A3B проигнорировала инструкцию и запихнула всё в один index.html.

Как это работает в реальности

Вот конкретные примеры из статьи:

Код и пакеты. Попросили создать гексагональный сапёр — модель подняла полноценный Node-пакет через pnpm с первой попытки.

Вёрстка. Друг автора получил работающий лендинг из одного короткого промпта. Реактивность есть, стили по умолчанию приличные.

Творческие задачи. Попросили написать стихи про танец зук и квантовую физику — модель корректно обработала и термины, и рифмы.

Не шедевры, но практически применимо. А ведь год назад такие вещи делал только GPT-4.5 за бешеные деньги.

Запуск локально: без магии, без олламы

Автор категорически рекомендует llama.cpp вместо Ollama — и я его понимаю. Ollama удобен для новичков, но добавляет лишний слой абстракции там, где он не нужен.

Настройка:

llama-server -hf unsloth/Qwen3.6-27B-MTP-GGUF:Q8_0 \
--spec-type draft-mtp -ngl 999 -fa on -c 65536 --port 8080

Разберём ключевые флаги:

После запуска открываете http://127.0.0.1:8080 — и общаетесь напрямую.

СТЕК ЛОКАЛЬНОГО LLM ДЛЯ РАЗРАБОТКИ
───────────────────────────────────
┌─────────┐    ┌──────────┐    ┌───────────┐
│ Вы      │───▶│ llama.cpp│───▶│ Qwen 3.6  │
│ промпт  │    │ server   │    │ 27B Q8    │
└─────────┘    └──────────┘    └───────────┘
                  │                  │
                  ▼                  ▼
           ┌──────────┐       ┌───────────┐
           │ OpenCode │       │ GPU VRAM  │
           │ / Pi /   │       │ ~20GB     │
           │ Hermes   │       └───────────┘
           └──────────┘
Простой стек: llama.cpp + любая IDE/агент = локальный AI-помощник

Для интеграции с OpenCode конфиг элементарный:

{
  "provider": {
    "llama": {
      "baseURL": "http://127.0.0.1:8080/v1",
      "apiKey": "local"
    }
  },
  "model": "llama/qwen3.6-27b"
}

Ограничения: честно о минусах

Буду честен: автор статьи сам признаёт, что модель греется. Физически греется — до плавления коленок.

Для постоянного использования нужны:

Если у вас скромная видеокарта или ноутбук без дискретного GPU — этот вариант не для вас.

Также стоит понимать: это не замена Claude Opus или GPT-4o для сложных архитектурных решений. Это повседневный помощник для рутины: форматирование кода, небольшие фичи, документация.

Итог: стоит ли оно того?

Qwen 3.6 27B — это первая локальная модель, которая закрывает реальные задачи разработчика без продакшн-инфраструктуры.

Качество кода достаточное для ежедневной работы. Запуск простой. Стоимость — только железо, которое у многих уже есть.

Если вы давно хотели AI-помощника без зависимости от облака — попробуйте именно эту связку: llama.cpp + Qwen 3.6 27B + ваша любимая IDE.

P. S. Автор оригинальной статьи Piotr Migdał использовал тепловизор для проверки температуры модели во время работы — и это уровень инженерного перфекционизма, который мне нравится.

Ссылки

Дмитрий Полухин — продуктовый дизайнер. Пишу про разработку, AI и дизайн интерфейсов. Обо мне, контакты и профили.