SRE 2.0: Наблюдаемость AI-агентов

21.01.2026 · 6 мин

Ваш сервер работает идеально (Uptime 100%). Но ваш AI-агент только что потратил $50, чтобы уверенно солгать клиенту. Как вы это отловите?

В классическом IT мы привыкли мониторить пульс. Сервер отвечает? (Uptime). Процессор не перегрелся? (CPU). Канал свободен? (Bandwidth). Это была «медицина тела»: если показатели в норме, значит, организм здоров.

С приходом LLM-агентов эта парадигма рухнула.

Ваш AI-агент может иметь идеальный аптайм и молниеносный отклик (200ms), но при этом медленно сходить с ума. Он может вежливо сжигать бюджет, гоняя по кругу бессмысленные мысли («Thought loops»), или уверенно галлюцинировать, уничтожая репутацию бренда.

Физически (на уровне железа) он здоров. Психически (на уровне смыслов) — он болен.

Добро пожаловать в эру Agentic Observability. Здесь мы больше не механики, которые меняют масло. Мы — психиатры для нейросетей.

Сдвиг парадигмы: От «Оно работает?» к «Оно думает?»

Кто такие SRE? Site Reliability Engineers — это «цифровые спасатели» IT-мира. Это люди, которые просыпаются в 3 часа ночи если упал YouTube или перестал работать банк. Их религия — Надежность, а их главный враг — Отказ Системы.

Раньше SRE-инженеры защищали систему от отказа (Downtime). Теперь мы защищаем её от бреда (Insanity).

Вот как изменилась приборная панель современного CTO:

MONITORING FOCUS SHIFT
──────────────────────
METRIC TYPE    OLD WORLD (SRE 1.0)       NEW WORLD (SRE 2.0)
Resource       CPU/RAM (The Body)   ──▶  Context/Tokens (The Mind)
Cost Unit      $/Hour (Rent)        ──▶  $/Insight (Value)
Failure        Crash (500 Error)    ──▶  Lie (Hallucination)
Main Risk      Downtime             ──▶  Insanity

Мы перестали волноваться, что сервер упадет. Мы волнуемся, что он сойдет с ума.

Давайте разберем три главных показателя, которые теперь важнее, чем загрузка процессора.

1. Токеномика и Эффективность (Или «Счетчик в такси»)

Сложно: Token Efficiency Ratio.
Просто: КПД мыслей.

Представьте, что вы платите юристу за каждое сказанное слово. И за каждое услышанное тоже. В мире AI «слова» — это токены.

Если вы попросили агента: «Да/Нет: Стоит ли покупать акции Apple?», а он в ответ прочитал вам вслух всю «Войну и мир» и в конце сказал «Да», вы разорились.

В SRE 2.0 мы следим не за тем, насколько загружен процессор, а за тем, насколько «плотно» думает агент. Мы ищем «словесный понос» — когда агент тратит 10,000 токенов (и ваших денег) на задачу, которая решается за 50.

Инсайт: Если ваш AI тратит $10 на генерацию отчета, который приносит $5 пользы — это не баг кода. Это баг бизнес-модели.

2. Дрейф Галлюцинаций (Или «Детектор лжи»)

Сложно: Hallucination Rate & Groundedness Score.
Просто: Индекс Честности.

AI — это не энциклопедия. Это талантливый импровизатор. Если он не знает ответа, он его придумает, и сделает это очень уверенно. Это называется галлюцинация.

Классический мониторинг не видит разницы между правдой и ложью. Для сервера текст «Земля плоская» весит столько же байт, сколько «Земля круглая».

Поэтому мы внедряем «Модели-Судьи» (Model-as-a-Judge). Это маленькие, дешевые и очень педантичные AI-агенты, которые стоят за спиной у большого гения и проверяют каждый его факт.

REALITY CHECK PROCESS
─────────────────────
Query ──▶ [AI Agent] ──▶ "Revenue is 5M" (Claim)
               │
               ▼
        [Judge Model] ◀── Checks against Database
               │
        ┌──────┴──────┐
      Mismatch!      Match
    (Hallucination) (Ground Truth)
        │
        ▼
   ALERT SRE!

Маленький скучный AI проверяет большого креативного AI. Это и есть совесть системы.

3. Семантический Дрейф (Или «Испорченный компас»)

Сложно: Embedding Space Drift.
Просто: Смысловой сдвиг.

Представьте, что для вашего AI слово «Яблоко» всегда означало фрукт. Но вдруг, после обновления, он начал считать, что «Яблоко» — это только технологическая компания.

Для компьютера ничего не сломалось. Код работает. Ошибок нет. Но для пользователя, который заказывает продукты, сервис стал бесполезен.

Мы мониторим векторное пространство (карту смыслов). Если мы видим, что ответы агента начали «уплывать» в странную степь (например, он стал грубить или отвечать стихами), загорается красная лампочка.

Итог: Медицина вместо Механики

SRE 2.0 больше похоже на психиатрию, чем на инженерию. Мы больше не механики, которые меняют масло. Мы — терапевты, которые следят, чтобы коллективный разум компании сохранял рассудок, был эффективен и не врал пациентам.

И это, пожалуй, самая интересная работа в IT на ближайшее десятилетие.

Дмитрий Полухин — продуктовый дизайнер. Пишу про разработку, AI и дизайн интерфейсов. Обо мне, контакты и профили.