Версия 2026-06 · CC-BY-4.0
AI Incident Response Playbook
14 классов AI-инцидентов в production — сигналы обнаружения, immediate triage, шаблоны коммуникации, паттерны root cause, prevention update.
Сохранить как PDF: нажмите Ctrl+P или ⌘+P, выберите «Сохранить как PDF». Страница оформлена для печати.
Как использовать playbook. Companion к Failure Modes Catalog: failure modes ловятся до запуска; инциденты — это то, что доходит до production несмотря на ревью. Для каждого класса: подтвердите, что detection signals соответствуют, запустите immediate triage, отправьте communication template (подставив переменные), задокументируйте root cause относительно паттернов, оформите prevention update, чтобы следующий случай был пойман control'ом, а не человеком в 2 ночи. Собран из 150+ engagement'ов, где production AI-системы переживали инциденты, требующие задокументированной реакции.
P0 Критический — page on-call
P1 Высокий — mitigate в часах
P2 Средний — в течение рабочего дня
P3 Низкий — только investigation
INC-01
Взрыв стоимости LLM
P1
- Сигналы обнаружения
- Spend metric превышает дневной budget >2x
- Token-per-query metric step-change
- Vendor billing alert
- Immediate Triage
- Активировать per-key rate limit на 25% от обычного
- Идентифицировать top-N consumers из логов
- Откатить недавние prompt/template изменения, если коррелируют
- Шаблон коммуникации
- «Аномалия стоимости обнаружена на LLM-сервисе в HH:MM. Throttling активен; user impact — rate-limited ответы. Расследование root cause идёт; ETA нормальной capacity в Xh.»
- Паттерны Root Cause
- Свободный top-k в RAG retrieval
- Удалили reranker по ошибке
- Изменение prompt раздувает context
- Abuse / scraping паттерн
- Prevention Update
- Token-per-query alarm на 1.5x baseline. Per-key rate limit + budget cap. Reranker обязателен по policy.
INC-02
Hallucination на масштабе по конкретной теме
P1
- Сигналы обнаружения
- Cluster жалоб клиентов на один неверный факт
- Eval regression на subset темы
- Citation rate drop на retrieved chunks
- Immediate Triage
- Добавить hardcoded refusal по теме до фикса
- Проверить retrieval против ground truth на репрезентативных queries
- Подтвердить, что RAG corpus содержит правильную информацию
- Шаблон коммуникации
- «Мы идентифицировали некорректные ответы по теме X. Ассистент сейчас отклоняет тему, пока чиним retrieval. ETA возврата в работу: Xh.»
- Паттерны Root Cause
- Retrieval не выдаёт правильный chunk
- Embedding model misalignment по терминологии
- Corpus stale или отсутствует факт
- System prompt допускает speculation
- Prevention Update
- Golden-set evaluation с темой. Citation requirement enforced в prompt. Schedule corpus freshness audit.
INC-03
Silent model drift (vendor update)
P2
- Сигналы обнаружения
- Eval score drop без code change
- Output distribution shift
- Customer feedback shift за неделю
- Immediate Triage
- Pin к known-good model version, если vendor позволяет
- A/B compare current vs prior version на golden set
- Откатить affected prompts к version-pinned model
- Шаблон коммуникации
- «Internal: подозрение на model drift на vendor X. Регрессия Y% наблюдается. Pinning к prior version, пока расследуем.»
- Паттерны Root Cause
- Vendor молча обновил underlying model
- Vendor deprecated feature, на котором завязан prompt
- Tokenizer изменился под тем же model name
- Prevention Update
- Version-pin для каждого model в production. Subscribe к vendor changelog. Eval в CI для catch drift.
INC-04
Prompt injection через retrieved content
P0
- Сигналы обнаружения
- Аномальные tool calls
- Output, содержащий данные не от текущего пользователя
- Подозрительный system-prompt leakage в ответах
- Immediate Triage
- Отключить tool calling для retrieved-content sessions
- Quarantine подозрительных документов
- Force re-auth на affected sessions
- Шаблон коммуникации
- «Internal P0: вектор prompt injection обнаружен через document upload. Tools отключены, пока расследуем scope. Уведомления клиентам нет до оценки impact.»
- Паттерны Root Cause
- Retrieved content трактуется как instruction
- User-uploaded документ не фильтруется
- RAG corpus загрязнён adversarial entries
- Prevention Update
- System prompt, запрещающий следовать retrieved-инструкциям. Output validation. Content scanning до ingestion. Tool-call allowlist независимо от LLM output.
INC-05
PII leak в LLM output
P0
- Сигналы обнаружения
- DLP alert
- Customer report
- Audit log с PII в response
- Immediate Triage
- Отключить affected endpoint
- Привлечь legal + privacy officer
- Идентифицировать scope: какие пользователи, какие данные, сколько calls
- Шаблон коммуникации
- «Internal P0: появление PII в LLM output на endpoint X. Endpoint отключён. Legal привлечён. Детальная оценка scope в 4h.»
- Паттерны Root Cause
- PII в RAG corpus, который должен был быть redacted
- Недостаточный output filtering
- Cross-tenant retrieval leak
- Model обучен на PII (на стороне vendor)
- Prevention Update
- PII scrubbing на ingestion И output. Tenant filter на retrieval layer. Output DLP scan. Периодический red-team.
INC-06
Vendor outage
P1
- Сигналы обнаружения
- Status page vendor'а жёлтый/красный
- Spike 5xx от vendor API
- Latency p95 превышает threshold
- Immediate Triage
- Активировать self-hosted fallback ИЛИ альтернативный vendor через gateway
- Feature flag к degraded mode для non-critical AI paths
- Обновить status page
- Шаблон коммуникации
- «Некоторые AI features работают в degraded mode из-за upstream vendor outage. Полная функциональность вернётся, когда vendor восстановится; будем обновлять status почасово.»
- Паттерны Root Cause
- Vendor incident
- Regional vendor outage без multi-region fallback
- Rate-limit hit из-за изменения usage pattern
- Prevention Update
- Gateway-based multi-vendor с automatic failover. Self-hosted fallback для compliance-critical paths. Graceful degradation feature flags.
INC-07
Latency degradation
P2
- Сигналы обнаружения
- p95 над SLA >15 мин
- Queue depth растёт
- Customer satisfaction metric drop
- Immediate Triage
- Добавить caching layer для hot prompts
- Shed non-critical traffic
- Проверить vendor status; switch region если применимо
- Шаблон коммуникации
- «Видим повышенные времена ответа в AI features. Mitigations в работе; normal latency ожидается в Xh.»
- Паттерны Root Cause
- Vendor regional latency
- Context window вырос из-за corpus growth
- Reranker — bottleneck
- Cold cache после deploy
- Prevention Update
- Latency SLO alarms. Hot-prompt cache. Streaming responses где применимо. Reranker capacity planning.
INC-08
Quality regression после prompt change
P2
- Сигналы обнаружения
- Eval score drop после deploy
- Customer feedback shift
- Internal QA flag
- Immediate Triage
- Откатить prompt к previous version
- A/B compare с rolled-back версией
- Аннотировать failing samples для analysis
- Шаблон коммуникации
- «Internal: regression качества обнаружена на feature X после prompt change в Y. Reverted; расследуем root cause.»
- Паттерны Root Cause
- Prompt change тестировался только на happy path
- Edge cases сломались
- Negative-space examples не в eval
- Prevention Update
- Mandatory golden-set eval до prompt deploy. Negative-space examples в eval. Canary deployment для prompts.
INC-09
Tool-use loop / runaway agent
P1
- Сигналы обнаружения
- Spike tool call count per session
- Long-running session metric
- Cost-per-session аномалия
- Immediate Triage
- Hard cap tool calls per session
- Kill long sessions сверх limit
- Отключить конкретный tool, если он — loop driver
- Шаблон коммуникации
- «Internal: agent loop обнаружен. Per-session call cap снижен. Расследование идёт.»
- Паттерны Root Cause
- Tool возвращает неоднозначный результат, ведущий к retry
- Plan-and-execute prompt поощряет повторение
- Нет completion criterion в prompt
- Prevention Update
- Per-session call budget. Completion criterion в system prompt. Tool result validation до next step.
INC-10
Compliance audit finding по AI
P1
- Сигналы обнаружения
- External или internal audit finding
- Regulator inquiry
- Customer compliance review failure
- Immediate Triage
- Задокументировать scope и timeline finding'а
- Привлечь compliance + legal
- Suspend конкретный affected feature если рекомендовано
- Шаблон коммуникации
- «Internal: audit finding требует ответа к дате D. Привлекаем legal + compliance. Customer-facing communication ждёт legal review.»
- Паттерны Root Cause
- Missing audit log
- Недостаточное evidence для compliance baseline control
- Configuration drift с прошлого audit
- Prevention Update
- Audit log retention review. Map каждый control в 12-control baseline к evidence. Schedule quarterly pre-audit.
INC-11
Embedding corpus poisoning
P0
- Сигналы обнаружения
- Аномальный cluster ответов от конкретного retrieval pattern
- Необычные документы появляются высоко в retrieval
- External report о malicious upload
- Immediate Triage
- Отключить user-content ingestion временно
- Re-embed corpus с trusted source
- Quarantine подозрительных документов
- Шаблон коммуникации
- «Internal P0: потенциальный corpus poisoning. User-content ingestion отключён. Re-indexing идёт.»
- Паттерны Root Cause
- Unauthenticated user-content ingestion
- Недостаточная content moderation
- Adversarial uploader эксплуатирует public path
- Prevention Update
- Аутентификация каждого ingestion path. Content classifier на ingestion. Provenance tracking для каждого chunk.
INC-12
Token / credential leak в prompt
P0
- Сигналы обнаружения
- Credential появляется в vendor логах
- Customer credential rotation alert
- Secrets scanner alert
- Immediate Triage
- Ротировать credential немедленно
- Аудит access logs на misuse в exposure window
- Отключить integration, который утёк
- Шаблон коммуникации
- «Internal P0: credential exposure. Rotation завершена; access logs в обзоре на misuse window Xh.»
- Паттерны Root Cause
- Credential включён в retrieved chunk
- Пользователь вставил secret в chat, который был залогирован
- Debug logging засветил secret
- Prevention Update
- Secret pre-filter на каждом user input + retrieved chunk. Vendor log redaction policy. Никогда не логировать raw prompts в production.
INC-13
Stale data из RAG после изменения source
P2
- Сигналы обнаружения
- Customer report устаревшей информации
- Reindex job failure log
- Cache invalidation alarm
- Immediate Triage
- Force reindex affected source
- Отключить cache для affected topic
- Подтвердить freshness через spot-check
- Шаблон коммуникации
- «Customer-facing: мы идентифицировали, что некоторые ответы базировались на устаревших данных. Index обновлён; пожалуйста, попробуйте снова.»
- Паттерны Root Cause
- Failed reindex job без alerting
- Cache TTL слишком долгий для source change cadence
- Webhook от source отвалился
- Prevention Update
- Reindex job health alarm. Source-change webhook retries с DLQ. Per-source freshness SLO.
INC-14
Пересечение регуляторной границы (data residency)
P0
- Сигналы обнаружения
- Vendor processing log с cross-border data flow
- Compliance review finding
- Customer escalation
- Immediate Triage
- Направить affected traffic к in-region endpoint
- Привлечь legal
- Задокументировать scope cross-border processing
- Шаблон коммуникации
- «Internal P0: data-residency boundary возможно пересечена. Routing исправлен. Legal оценивает notification obligations.»
- Паттерны Root Cause
- Vendor request направлен в неожиданный регион
- Self-hosted fallback в другой jurisdiction
- DPA не покрывает routing
- Prevention Update
- Vendor SLA включает region pinning. Self-hosted fallback in-region. Map каждый data flow против DPA matrix.
Common Post-Incident Actions
| Действие | Owner | Deliverable |
| Postmortem в течение 5 рабочих дней | Incident Commander | Документ с timeline, impact, root cause, action items, owners, dates. |
| Обновить AI Failure Modes Catalog, если появился новый mode | AI Platform Lead | PR в internal failure-modes register. |
| Обновить governance baseline, если control failed | AI Risk Lead | Обновлённый baseline + оценка других систем против того же control. |
| Обновить vendor scorecard, если vendor-related | Procurement | Корректировка score + next-review date перенесён вперёд. |