Локальный ИИ на ноутбуке: как Qwen3.5 и Apple M5 Pro меняют правила игры

21.03.2026 · 5 мин

Знаете, что меня зацепило в последние месяцы? Везде кричат про облачный ИИ, про API, про подписки на ChatGPT. Но тут ребята из SharpAI сделали вещь, которая заставила меня задуматься: они запустили большую языковую модель на обычном ноутбуке — и она почти догнала GPT-5.4.

Причём не на каком-то монстре с десятью видеокартами, а на MacBook Pro с чипом M5 Pro. Без интернета. Без счетов за API. С полной приватностью данных.

Давайте разберёмся, что тут происходит и почему это важно.

Железо, которое изменило правила игры

Apple M5 Pro — это не просто процессор. Это система на кристалле (SoC), где CPU, GPU и нейронный движок живут в одной памяти. 18 ядер, 64 ГБ унифицированной памяти — и всё это в ноутбуке, который помещается в рюкзак.

Раньше, чтобы запустить что-то серьёзное, вам нужна была ферма из дорогих GPU. Теперь достаточно макбука.

Но железо — это ещё не всё. Важно, что на этом железе запускать.

Qwen3.5 — китайский тяжеловес, о котором все молчат

Qwen3.5 — это семейство моделей от Alibaba. И они реально хороши. Особенно в версии на 9 миллиардов параметров (9B).

Вот цифры из бенчмарка HomeSec-Bench:

СРАВНЕНИЕ МОДЕЛЕЙ В HOME SEC-BENCH
───────────────────────────────────
Модель                    │ Тип   │ Pass Rate │ Время
──────────────────────────┼───────┼───────────┼────────
GPT-5.4                   │Облако │   97.9%   │ 2м 22с
GPT-5.4-mini              │Облако │   95.8%   │ 1м 17с
Qwen3.5-9B (локально)     │Локал  │   93.8%   │ 5м 23с
Qwen3.5-27B (локально)    │Локал  │   93.8%   │ 15м 8с
GPT-5.4-nano              │Облако │   92.7%   │ 1м 34с
──────────────────────────┴───────┴───────────┴────────
Разрыв между лидером и Qwen3.5-9B — всего 4.1%

Полные результаты доступны на сайте SharpAI

Запускается это всё через llama.cpp — библиотеку, которая позволяет запускать модели на Mac без танцев с бубном. Квантование (Q4_K_M) сжимает модель так, что она влазит в 13.8 ГБ оперативной памяти.

Скорость — это новая нефть

Тут есть интересный момент. Время до первого токена (TTFT — Time To First Token) показывает, как быстро модель начинает отвечать:

ВРЕМЯ ДО ПЕРВОГО ТОКЕНА (TTFT)
───────────────────────────────
Qwen3.5-35B-MoE   ████ 435мс  ← Самый быстрый
GPT-5.4-nano      ████░ 508мс
GPT-5.4-mini      ████░░ 553мс
GPT-5.4           ████░░ 601мс
Qwen3.5-9B        █████░ 765мс
─────────────────────────────────────
Чем меньше столбец — тем лучше отзывчивость

Меньше — лучше

Qwen3.5-35B-MoE (Mixture of Experts — смесь экспертов) обгоняет все облачные модели OpenAI по скорости отклика. Это означает, что локальная система может быть отзывчивее, чем облачная.

А скорость генерации — 25 токенов в секунду на Qwen3.5-9B. Это уже читабельно. Не идеально для романов, но вполне нормально для диалогов и автоматизации.

Почему это важно для безопасности

Вот здесь начинается самое интересное. HomeSec-Bench — это бенчмарк для систем безопасности дома. Там 96 тестов в 15 категориях:

Использование инструментов
Классификация угроз
Дедупликация событий
И многое другое

Представьте: камера видеонаблюдения записывает подозрительное движение. Локальная модель анализирует видео прямо на устройстве — и ни один байт не улетает в облако.

Это принципиально другой уровень приватности. Никто не видит ваши видео. Никто не анализирует, когда вы дома. Всё остаётся в вашей сети.

Реальные грабли, о которых стоит знать

Но не всё так радужно. Есть нюансы:

Большие модели = больше памяти. Qwen3.5-27B требует больше ресурсов и работает медленнее (15 минут на тест против 5 минут у 9B). При этом результат тот же — 93,8%.
Квантование имеет цену. Модель сжимается, теряется точность. Q4_K_M — это хороший компромисс, но не идеал.
Не всё работает из коробки. Авторы статьи упоминают, что GPT-5-mini (2025) много раз проваливала тесты из-за того, что API отклонял нестандартные параметры температуры. Локальные модели такого не имеют — но и настраивать их сложнее.

Что это значит для индустрии

Я думаю, что мы стоим на переломе. Ещё год назад локальный ИИ был уделом энтузиастов и исследователей. Сегодня это уже коммерчески жизнеспособное решение.

Для бизнеса: можно построить систему безопасности, которая не зависит от облака, не требует подписки и работает даже без интернета.

Для разработчиков: llama.cpp + Qwen — это уже зрелый стек. Можно экспериментировать без бюджета на API. А если хочется практического применения, посмотрите мой разбор OpenCode как локального AI-ассистента для кода.

Для параноиков (в хорошем смысле): наконец-то есть способ использовать ИИ без отправки данных третьим лицам.

Вместо вывода

Цифры говорят сами за себя: 93,8% качества GPT-5.4, нулевая стоимость API, полная приватность, работа на ноутбуке.

Это не значит, что облачные модели умрут. Но значит, что у нас появился выбор. И для многих задач — особенно связанных с безопасностью и приватностью — локальный ИИ уже сейчас может быть правильным решением.

Вопрос лишь в том, готовы ли мы этим пользоваться.

Ссылки

Дмитрий Полухин — продуктовый дизайнер. Пишу про разработку, AI и дизайн интерфейсов. Обо мне, контакты и профили.

Железо, которое изменило правила игры

Qwen3.5 — китайский тяжеловес, о котором все молчат

Скорость — это новая нефть

Почему это важно для безопасности

Реальные грабли, о которых стоит знать

Что это значит для индустрии

Вместо вывода

Ссылки

Что почитать дальше