Локальный ии на ноутбуке: как qwen3.5 и Apple m5 pro меняют правила игры
Знаете, что меня зацепило в последние месяцы? Везде кричат про облачный ИИ, про API, про подписки на ChatGPT. Но тут ребята из SharpAI сделали вещь, которая заставила меня задуматься: они запустили большую языковую модель на обычном ноутбуке — и она почти догнала GPT-5.4.
Причём не на каком-то монстре с десятью видеокартами, а на MacBook Pro с чипом M5 Pro. Без интернета. Без счетов за API. С полной приватностью данных.
Давайте разберёмся, что тут происходит и почему это важно.
Железо, которое изменило правила игры
Apple M5 Pro — это не просто процессор. Это система на кристалле (SoC), где CPU, GPU и нейронный движок живут в одной памяти. 18 ядер, 64 ГБ унифицированной памяти — и всё это в ноутбуке, который помещается в рюкзак.
Раньше, чтобы запустить что-то серьёзное, вам нужна была ферма из дорогих GPU. Теперь достаточно макбука.
Но железо — это ещё не всё. Важно, что на этом железе запускать.
Qwen3.5 — китайский уdlай, о котором все молчат
Qwen3.5 — это семейство моделей от Alibaba. И они реально хороши. Особенно в версии на 9 миллиардов параметров (9B).
Вот цифры из бенчмарка HomeSec-Bench:
СРАВНЕНИЕ МОДЕЛЕЙ В HOME SEC-BENCH ─────────────────────────────────── Модель │ Тип │ Pass Rate │ Время ──────────────────────────┼───────┼───────────┼──────── GPT-5.4 │Облако │ 97.9% │ 2м 22с GPT-5.4-mini │Облако │ 95.8% │ 1м 17с Qwen3.5-9B (локально) │Локал │ 93.8% │ 5м 23с Qwen3.5-27B (локально) │Локал │ 93.8% │ 15м 8с GPT-5.4-nano │Облако │ 92.7% │ 1м 34с ──────────────────────────┴───────┴───────────┴──────── Разрыв между лидером и Qwen3.5-9B — всего 4.1%
Запускается это всё через llama.cpp — библиотеку, которая позволяет запускать модели на Mac без танцев с бубном. Квантование (Q4_K_M) сжимает модель так, что она влазит в 13.8 ГБ оперативной памяти.
Скорость — это новый нефть
Тут есть интересный момент. Время до первого токена (TTFT — Time To First Token) показывает, как быстро модель начинает отвечать:
ВРЕМЯ ДО ПЕРВОГО ТОКЕНА (TTFT) ─────────────────────────────── Qwen3.5-35B-MoE ████ 435мс ← Самый быстрый GPT-5.4-nano ████░ 508мс GPT-5.4-mini ████░░ 553мс GPT-5.4 ████░░ 601мс Qwen3.5-9B █████░ 765мс ───────────────────────────────────── Чем меньше столбец — тем лучше отзывчивость
Qwen3.5-35B-MoE (Mixture of Experts — смесь экспертов) обгоняет все облачные модели OpenAI по скорости отклика. Это означает, что локальная система может быть отзывчивее, чем облачная.
А скорость генерации — 25 токенов в секунду на Qwen3.5-9B. Это уже читабельно. Не идеально для романов, но вполне нормально для диалогов и автоматизации.
Почему это важно для безопасности
Вот здесь начинается самое интересное. HomeSec-Bench — это бенчмарк для систем безопасности дома. Там 96 тестов в 15 категориях:
- Использование инструментов
- Классификация угроз
- Дедупликация событий
- И многое другое
Представьте: камера видеонаблюдения записывает подозрительное движение. Локальная модель анализирует видео прямо на устройстве — и ни один байт не улетает в облако.
Это принципиально другой уровень приватности. Никто не видит ваши видео. Никто не анализирует, когда вы дома. Всё остаётся в вашей сети.
Реальные грабли, о которых стоит знать
Но не всё так радужно. Есть нюансы:
- Большие модели = больше памяти. Qwen3.5-27B требует больше ресурсов и работает медленнее (15 минут на тест против 5 минут у 9B). При этом результат тот же — 93,8%.
- Квантование имеет цену. Модель сжимается, теряется точность. Q4_K_M — это хороший компромисс, но не идеал.
- Не всё работает из коробки. Авторы статьи упоминают, что GPT-5-mini (2025) много раз проваливала тесты из-за того, что API отклонял нестандартные параметры температуры. Локальные модели такого не имеют — но и настраивать их сложнее.
Что это значит для индустрии
Я думаю, что мы стоим на переломе. Ещё год назад локальный ИИ был уделом энтузиастов и исследователей. Сегодня это уже коммерчески жизнеспособное решение.
Для бизнеса: можно построить систему безопасности, которая не зависит от облака, не требует подписки и работает даже без интернета.
Для разработчиков: llama.cpp + Qwen — это уже зрелый стек. Можно экспериментировать без бюджета на API.
Для параноиков (в хорошем смысле): наконец-то есть способ использовать ИИ без отправки данных третьим лицам.
Вместо вывода
Цифры говорят сами за себя: 93,8% качества GPT-5.4, нулевая стоимость API, полная приватность, работа на ноутбуке.
Это не значит, что облачные модели умрут. Но значит, что у нас появился выбор. И для многих задач — особенно связанных с безопасностью и приватностью — локальный ИИ уже сейчас может быть правильным решением.
Вопрос лишь в том, готовы ли мы этим пользоваться.