Позвольте представить: qwen 3.6 27b
Знаете, что меня всегда напрягало в локальных моделях? Они либо слишком слабые, чтобы писать нормальный код, либо настолько прожорливые, что греют квартиру летом и опустошают кошелёк на электричество.
Но недавно наткнулся на обсуждение в Hacker News — и теперь у меня новый фаворит.
Что за зверь такой qwen 3.6 27b
Qwen 3.6 — это семейство моделей от Alibaba Cloud. Внутри два варианта: смешанная модель с экспертами (35B A3B) и плотная модель (27B). Первая быстрее, вторая мощнее. Автор статьи, Piotr Migdał, однозначно рекомендует именно 27B.
И вот почему это важно: для локальной разработки вам нужна модель, которая:
- Пишет рабочий код, а не «примерно правильный»
- Понимает контекст проекта
- Не требует серверного железа уровня NASA
27B укладывается во все три пункта.
Почему именно 27b — золотая середина
Давайте на секунду забудем маркетинговые слоганы и посмотрим на цифры.
РАЗМЕР МОДЕЛИ VS КАЧЕСТВО КОДА ─────────────────────────────── 7B ────▶ [████░░░░░░] маловата для серьёзных задач 14B ─────▶ [██████░░░░] лучше, но всё ещё компромисс 27B ─────▶ [██████████] оптимум: качество + локальный запуск 35B+ ─────▶ [██████████] мощнее, но нужен сервер/ферма GPU Горизонтальная ось: размер модели → вертикальная: качество кода
Плотная архитектура (dense) означает, что все параметры модели работают над каждой задачей. Это медленнее, чем mixture-of-experts, где активна только часть «экспертов», но результат предсказуемее и стабильнее.
Автор пишет, что тестировал модель на задачах уровня «создать пакет с нуля» — и она справилась с первого раза. Для сравнения, смешанная 35B A3B проигнорировала инструкцию и запихнула всё в один index.html.
Как это работает в реальности
Вот конкретные примеры из статьи:
Код и пакеты. Попросили создать гексагональный сапёр — модель подняла полноценный Node-пакет через pnpm с первой попытки.
Вёрстка. Друг автора получил работающий лендинг из одного короткого промпта. Реактивность есть, стили по умолчанию приличные.
Творческие задачи. Попросили написать стихи про танец зук и квантовую физику — модель корректно обработала и термины, и рифмы.
Не шедевры, но практически применимо. А ведь год назад такие вещи делал только GPT-4.5 за бешеные деньги.
Запуск локально: без магии, без олламы
Автор категорически рекомендует llama.cpp вместо Ollama — и я его понимаю. Ollama удобен для новичков, но добавляет лишний слой абстракции там, где он не нужен.
Настройка:
llama-server -hf unsloth/Qwen3.6-27B-MTP-GGUF:Q8_0 \
--spec-type draft-mtp -ngl 999 -fa on -c 65536 --port 8080
Разберём ключевые флаги:
- Q8_0 — квантование в 8 бит, экономит половину места почти без потери качества
- MTP (multi-token prediction) — модель предсказывает несколько токенов вперёд, ускоряя генерацию
- -ngl 999 — все слои на GPU
- -fa on — flash attention для быстрой обработки контекста
- -c 65536 — контекст 64k токенов (при нативных 256k)
После запуска открываете http://127.0.0.1:8080 — и общаетесь напрямую.
СТЕК ЛОКАЛЬНОГО LLM ДЛЯ РАЗРАБОТКИ
───────────────────────────────────
┌─────────┐ ┌──────────┐ ┌───────────┐
│ Вы │───▶│ llama.cpp│───▶│ Qwen 3.6 │
│ промпт │ │ server │ │ 27B Q8 │
└─────────┘ └──────────┘ └───────────┘
│ │
▼ ▼
┌──────────┐ ┌───────────┐
│ OpenCode │ │ GPU VRAM │
│ / Pi / │ │ ~20GB │
│ Hermes │ └───────────┘
└──────────┘
Для интеграции с OpenCode конфиг элементарный:
{
"provider": {
"llama": {
"baseURL": "http://127.0.0.1:8080/v1",
"apiKey": "local"
}
},
"model": "llama/qwen3.6-27b"
}
Ограничения: честно о минусах
Буду честен: автор статьи сам признаёт, что модель греется. Физически греется — до плавления коленок.
Для постоянного использования нужны:
- GPU с ~20GB VRAM (или несколько карт)
- Хорошее охлаждение
- Готовность к шуму кулеров
Если у вас скромная видеокарта или ноутбук без дискретного GPU — этот вариант не для вас.
Также стоит понимать: это не замена Claude Opus или GPT-4o для сложных архитектурных решений. Это повседневный помощник для рутины: форматирование кода, небольшие фичи, документация.
Итог: стоит ли оно того?
Qwen 3.6 27B — это первая локальная модель, которая закрывает реальные задачи разработчика без продакшн-инфраструктуры.
Качество кода достаточное для ежедневной работы. Запуск простой. Стоимость — только железо, которое у многих уже есть.
Если вы давно хотели AI-помощника без зависимости от облака — попробуйте именно эту связку: llama.cpp + Qwen 3.6 27B + ваша любимая IDE.
P. S. Автор оригинальной статьи Piotr Migdał использовал тепловизор для проверки температуры модели во время работы — и это уровень инженерного перфекционизма, который мне нравится.
Ссылки
- Quesma Blog: Qwen 3.6 is awesome — оригинальная статья Piotr Migdał
- llama.cpp — инструмент для запуска моделей локально
- Hugging Face: unsloth/Qwen3.6-27B-MTP-GGUF: Q8_0 — рекомендуемая квантованная модель
- OpenCode — AI-агент для разработки
Дмитрий Полухин — продуктовый дизайнер. Пишу про разработку, AI и дизайн интерфейсов. Обо мне, контакты и профили.