Можно ли сделать AI-ассистента действительно безопасным?

12.02.2026 · 5 мин

Каждый раз, когда я даю Claude доступ к своим файлам или разрешаю GitHub Copilot читать кодовую базу, в голове мелькает мысль: а что, если? Что если промпт куда-то утекает? Что если модель запомнит конфиденциальные данные?

Вопрос безопасности AI перестал быть академическим. Он стал частью ежедневной работы.

Почему это сложно

Традиционное ПО работает предсказуемо: вход → алгоритм → выход. Код можно проверить, поведение — предсказать.

LLM — это чёрный ящик. Один и тот же промпт может дать разные ответы. Модель может «запомнить» данные из обучения или вашей сессии. Гарантий нет.

TRADITIONAL SOFTWARE          LLM AI ASSISTANT
─────────────────────         ─────────────────────
┌───────────────┐             ┌───────────────┐
│ Input         │             │ Prompt        │
│   ↓           │             │   ↓           │
│ Deterministic │             │ Probabilistic │
│   Algorithm   │             │   Model       │
│   ↓           │             │   ↓           │
│ Predictable   │             │ Variable      │
│   Output      │             │   Output      │
└───────────────┘             └───────────────┘

Auditable: YES                Auditable: NO
Reproducible: YES             Reproducible: SOMETIMES

Классическое ПО детерминировано, LLM — вероятностны. Это меняет подход к безопасности.

Где риски

Утечка данных через промпт. Когда вы вставляете конфиденциальный документ в чат с GPT-4, он уходит на серверы OpenAI. Попадёт ли в обучающую выборку — неизвестно. Инъекции через контекст. Зловредный код в репозитории может манипулировать AI-ассистентом. Уже есть примеры, когда Copilot предлагал уязвимый код из-за специально подготовленных файлов. Социальная инженерия. Модель может быть убеждена обойти ограничения. Jailbreak’ы существуют не потому что разработчики ленивы, а потому что предсказать все векторы атак невозможно.

Что делают сейчас

Локальные модели. Запуск LLM на своём железе — данные не покидают устройство. Но качество отстаёт от коммерческих решений. Sandbox’ы. Код выполняется в изолированном окружении. Удобно для экспериментов, но создаёт трения в рабочем процессе. Контекстные ограничения. Не давать модели доступ ко всему сразу. Разрешать только определённые API, файлы, директории.

Практический подход

Я разделяю данные на зоны:

Публичные: можно смело давать любому AI
Внутренние: локальные модели или проверенные сервисы с договором о неразглашении
Критичные: только ручная работа, никакого AI

Это не идеально. Это компромисс между удобством и риском.

Выводы

Абсолютно безопасного AI-ассистента сделать невозможно — так же, как невозможен абсолютно безопасный браузер или операционная система.

Но можно минимизировать риски:

Не кормить конфиденциальными данными публичные API
Использовать локальные модели для sensitive работы
Проверять код, предложенный AI, перед деплоем
Думать о AI как о стажёре с доступом — проверяй, контролируй, не доверяй полностью

Технология слишком полезна, чтобы от неё отказываться. Но и слишком молода, чтобы доверять безоговорочно.

Ссылки

OWASP Top 10 for LLM Applications — угрозы и меры защиты

Дмитрий Полухин — продуктовый дизайнер. Пишу про разработку, AI и дизайн интерфейсов. Обо мне, контакты и профили.

Почему это сложно

Где риски

Что делают сейчас

Практический подход

Выводы

Ссылки

Что почитать дальше