Версия 2026-06 · CC-BY-4.0

AI Incident Response Playbook

14 классов AI-инцидентов в production — сигналы обнаружения, immediate triage, шаблоны коммуникации, паттерны root cause, prevention update.

Сохранить как PDF: нажмите Ctrl+P или ⌘+P, выберите «Сохранить как PDF». Страница оформлена для печати.

Как использовать playbook. Companion к Failure Modes Catalog: failure modes ловятся до запуска; инциденты — это то, что доходит до production несмотря на ревью. Для каждого класса: подтвердите, что detection signals соответствуют, запустите immediate triage, отправьте communication template (подставив переменные), задокументируйте root cause относительно паттернов, оформите prevention update, чтобы следующий случай был пойман control'ом, а не человеком в 2 ночи. Собран из 150+ engagement'ов, где production AI-системы переживали инциденты, требующие задокументированной реакции.

P0 Критический — page on-call P1 Высокий — mitigate в часах P2 Средний — в течение рабочего дня P3 Низкий — только investigation

INC-01

Взрыв стоимости LLM

Сигналы обнаружения

Spend metric превышает дневной budget >2x
Token-per-query metric step-change
Vendor billing alert

Immediate Triage

Активировать per-key rate limit на 25% от обычного
Идентифицировать top-N consumers из логов
Откатить недавние prompt/template изменения, если коррелируют

Шаблон коммуникации

«Аномалия стоимости обнаружена на LLM-сервисе в HH:MM. Throttling активен; user impact — rate-limited ответы. Расследование root cause идёт; ETA нормальной capacity в Xh.»

Паттерны Root Cause

Свободный top-k в RAG retrieval
Удалили reranker по ошибке
Изменение prompt раздувает context
Abuse / scraping паттерн

Prevention Update

Token-per-query alarm на 1.5x baseline. Per-key rate limit + budget cap. Reranker обязателен по policy.

INC-02

Hallucination на масштабе по конкретной теме

Сигналы обнаружения

Cluster жалоб клиентов на один неверный факт
Eval regression на subset темы
Citation rate drop на retrieved chunks

Immediate Triage

Добавить hardcoded refusal по теме до фикса
Проверить retrieval против ground truth на репрезентативных queries
Подтвердить, что RAG corpus содержит правильную информацию

Шаблон коммуникации

«Мы идентифицировали некорректные ответы по теме X. Ассистент сейчас отклоняет тему, пока чиним retrieval. ETA возврата в работу: Xh.»

Паттерны Root Cause

Retrieval не выдаёт правильный chunk
Embedding model misalignment по терминологии
Corpus stale или отсутствует факт
System prompt допускает speculation

Prevention Update

Golden-set evaluation с темой. Citation requirement enforced в prompt. Schedule corpus freshness audit.

INC-03

Silent model drift (vendor update)

Сигналы обнаружения

Eval score drop без code change
Output distribution shift
Customer feedback shift за неделю

Immediate Triage

Pin к known-good model version, если vendor позволяет
A/B compare current vs prior version на golden set
Откатить affected prompts к version-pinned model

Шаблон коммуникации

«Internal: подозрение на model drift на vendor X. Регрессия Y% наблюдается. Pinning к prior version, пока расследуем.»

Паттерны Root Cause

Vendor молча обновил underlying model
Vendor deprecated feature, на котором завязан prompt
Tokenizer изменился под тем же model name

Prevention Update

Version-pin для каждого model в production. Subscribe к vendor changelog. Eval в CI для catch drift.

INC-04

Prompt injection через retrieved content

Сигналы обнаружения

Аномальные tool calls
Output, содержащий данные не от текущего пользователя
Подозрительный system-prompt leakage в ответах

Immediate Triage

Отключить tool calling для retrieved-content sessions
Quarantine подозрительных документов
Force re-auth на affected sessions

Шаблон коммуникации

«Internal P0: вектор prompt injection обнаружен через document upload. Tools отключены, пока расследуем scope. Уведомления клиентам нет до оценки impact.»

Паттерны Root Cause

Retrieved content трактуется как instruction
User-uploaded документ не фильтруется
RAG corpus загрязнён adversarial entries

Prevention Update

System prompt, запрещающий следовать retrieved-инструкциям. Output validation. Content scanning до ingestion. Tool-call allowlist независимо от LLM output.

INC-05

PII leak в LLM output

Сигналы обнаружения

DLP alert
Customer report
Audit log с PII в response

Immediate Triage

Отключить affected endpoint
Привлечь legal + privacy officer
Идентифицировать scope: какие пользователи, какие данные, сколько calls

Шаблон коммуникации

«Internal P0: появление PII в LLM output на endpoint X. Endpoint отключён. Legal привлечён. Детальная оценка scope в 4h.»

Паттерны Root Cause

PII в RAG corpus, который должен был быть redacted
Недостаточный output filtering
Cross-tenant retrieval leak
Model обучен на PII (на стороне vendor)

Prevention Update

PII scrubbing на ingestion И output. Tenant filter на retrieval layer. Output DLP scan. Периодический red-team.

INC-06

Vendor outage

Сигналы обнаружения

Status page vendor'а жёлтый/красный
Spike 5xx от vendor API
Latency p95 превышает threshold

Immediate Triage

Активировать self-hosted fallback ИЛИ альтернативный vendor через gateway
Feature flag к degraded mode для non-critical AI paths
Обновить status page

Шаблон коммуникации

«Некоторые AI features работают в degraded mode из-за upstream vendor outage. Полная функциональность вернётся, когда vendor восстановится; будем обновлять status почасово.»

Паттерны Root Cause

Vendor incident
Regional vendor outage без multi-region fallback
Rate-limit hit из-за изменения usage pattern

Prevention Update

Gateway-based multi-vendor с automatic failover. Self-hosted fallback для compliance-critical paths. Graceful degradation feature flags.

INC-07

Latency degradation

Сигналы обнаружения

p95 над SLA >15 мин
Queue depth растёт
Customer satisfaction metric drop

Immediate Triage

Добавить caching layer для hot prompts
Shed non-critical traffic
Проверить vendor status; switch region если применимо

Шаблон коммуникации

«Видим повышенные времена ответа в AI features. Mitigations в работе; normal latency ожидается в Xh.»

Паттерны Root Cause

Vendor regional latency
Context window вырос из-за corpus growth
Reranker — bottleneck
Cold cache после deploy

Prevention Update

Latency SLO alarms. Hot-prompt cache. Streaming responses где применимо. Reranker capacity planning.

INC-08

Quality regression после prompt change

Сигналы обнаружения

Eval score drop после deploy
Customer feedback shift
Internal QA flag

Immediate Triage

Откатить prompt к previous version
A/B compare с rolled-back версией
Аннотировать failing samples для analysis

Шаблон коммуникации

«Internal: regression качества обнаружена на feature X после prompt change в Y. Reverted; расследуем root cause.»

Паттерны Root Cause

Prompt change тестировался только на happy path
Edge cases сломались
Negative-space examples не в eval

Prevention Update

Mandatory golden-set eval до prompt deploy. Negative-space examples в eval. Canary deployment для prompts.

INC-09

Tool-use loop / runaway agent

Сигналы обнаружения

Spike tool call count per session
Long-running session metric
Cost-per-session аномалия

Immediate Triage

Hard cap tool calls per session
Kill long sessions сверх limit
Отключить конкретный tool, если он — loop driver

Шаблон коммуникации

«Internal: agent loop обнаружен. Per-session call cap снижен. Расследование идёт.»

Паттерны Root Cause

Tool возвращает неоднозначный результат, ведущий к retry
Plan-and-execute prompt поощряет повторение
Нет completion criterion в prompt

Prevention Update

Per-session call budget. Completion criterion в system prompt. Tool result validation до next step.

INC-10

Compliance audit finding по AI

Сигналы обнаружения

External или internal audit finding
Regulator inquiry
Customer compliance review failure

Immediate Triage

Задокументировать scope и timeline finding'а
Привлечь compliance + legal
Suspend конкретный affected feature если рекомендовано

Шаблон коммуникации

«Internal: audit finding требует ответа к дате D. Привлекаем legal + compliance. Customer-facing communication ждёт legal review.»

Паттерны Root Cause

Missing audit log
Недостаточное evidence для compliance baseline control
Configuration drift с прошлого audit

Prevention Update

Audit log retention review. Map каждый control в 12-control baseline к evidence. Schedule quarterly pre-audit.

INC-11

Embedding corpus poisoning

Сигналы обнаружения

Аномальный cluster ответов от конкретного retrieval pattern
Необычные документы появляются высоко в retrieval
External report о malicious upload

Immediate Triage

Отключить user-content ingestion временно
Re-embed corpus с trusted source
Quarantine подозрительных документов

Шаблон коммуникации

«Internal P0: потенциальный corpus poisoning. User-content ingestion отключён. Re-indexing идёт.»

Паттерны Root Cause

Unauthenticated user-content ingestion
Недостаточная content moderation
Adversarial uploader эксплуатирует public path

Prevention Update

Аутентификация каждого ingestion path. Content classifier на ingestion. Provenance tracking для каждого chunk.

INC-12

Token / credential leak в prompt

Сигналы обнаружения

Credential появляется в vendor логах
Customer credential rotation alert
Secrets scanner alert

Immediate Triage

Ротировать credential немедленно
Аудит access logs на misuse в exposure window
Отключить integration, который утёк

Шаблон коммуникации

«Internal P0: credential exposure. Rotation завершена; access logs в обзоре на misuse window Xh.»

Паттерны Root Cause

Credential включён в retrieved chunk
Пользователь вставил secret в chat, который был залогирован
Debug logging засветил secret

Prevention Update

Secret pre-filter на каждом user input + retrieved chunk. Vendor log redaction policy. Никогда не логировать raw prompts в production.

INC-13

Stale data из RAG после изменения source

Сигналы обнаружения

Customer report устаревшей информации
Reindex job failure log
Cache invalidation alarm

Immediate Triage

Force reindex affected source
Отключить cache для affected topic
Подтвердить freshness через spot-check

Шаблон коммуникации

«Customer-facing: мы идентифицировали, что некоторые ответы базировались на устаревших данных. Index обновлён; пожалуйста, попробуйте снова.»

Паттерны Root Cause

Failed reindex job без alerting
Cache TTL слишком долгий для source change cadence
Webhook от source отвалился

Prevention Update

Reindex job health alarm. Source-change webhook retries с DLQ. Per-source freshness SLO.

INC-14

Пересечение регуляторной границы (data residency)

Сигналы обнаружения

Vendor processing log с cross-border data flow
Compliance review finding
Customer escalation

Immediate Triage

Направить affected traffic к in-region endpoint
Привлечь legal
Задокументировать scope cross-border processing

Шаблон коммуникации

«Internal P0: data-residency boundary возможно пересечена. Routing исправлен. Legal оценивает notification obligations.»

Паттерны Root Cause

Vendor request направлен в неожиданный регион
Self-hosted fallback в другой jurisdiction
DPA не покрывает routing

Prevention Update

Vendor SLA включает region pinning. Self-hosted fallback in-region. Map каждый data flow против DPA matrix.

Common Post-Incident Actions

Действие	Owner	Deliverable
Postmortem в течение 5 рабочих дней	Incident Commander	Документ с timeline, impact, root cause, action items, owners, dates.
Обновить AI Failure Modes Catalog, если появился новый mode	AI Platform Lead	PR в internal failure-modes register.
Обновить governance baseline, если control failed	AI Risk Lead	Обновлённый baseline + оценка других систем против того же control.
Обновить vendor scorecard, если vendor-related	Procurement	Корректировка score + next-review date перенесён вперёд.

О playbook. Собран из 150+ engagement'ов Slavin AI & SLAtech 2022–2026, где production AI-системы переживали инциденты, требующие задокументированной реакции. Каждый класс инцидента наблюдался минимум в 2 независимых клиентских engagement'ах до включения. Шаги playbook отражают то, что было реально сделано; записи документированы как паттерны, не как конкретные события.

Лицензия. Creative Commons Attribution 4.0 International (CC-BY-4.0). Повторное использование с указанием «Slavin AI» и ссылкой на slavin.ai/Checklist/ru/AI-Incident-Response.

Machine-readable версия. Тот же playbook как JSON: slavin.ai/data/ai-incident-response-playbook.json.

Companion catalog. Failure modes ловятся до запуска: Чек-лист предпродакшн-ревью AI-кода.

Читать позицию →

Slavin AI — бренд SLAtech LTD. slatech.co.il · Контакт