Версия 2026-06 · CC-BY-4.0

AI Incident Response Playbook

14 классов AI-инцидентов в production — сигналы обнаружения, immediate triage, шаблоны коммуникации, паттерны root cause, prevention update.

Сохранить как PDF: нажмите Ctrl+P или +P, выберите «Сохранить как PDF». Страница оформлена для печати.
Как использовать playbook. Companion к Failure Modes Catalog: failure modes ловятся до запуска; инциденты — это то, что доходит до production несмотря на ревью. Для каждого класса: подтвердите, что detection signals соответствуют, запустите immediate triage, отправьте communication template (подставив переменные), задокументируйте root cause относительно паттернов, оформите prevention update, чтобы следующий случай был пойман control'ом, а не человеком в 2 ночи. Собран из 150+ engagement'ов, где production AI-системы переживали инциденты, требующие задокументированной реакции.
P0 Критический — page on-call P1 Высокий — mitigate в часах P2 Средний — в течение рабочего дня P3 Низкий — только investigation
INC-01

Взрыв стоимости LLM

P1
Сигналы обнаружения
  • Spend metric превышает дневной budget >2x
  • Token-per-query metric step-change
  • Vendor billing alert
Immediate Triage
  • Активировать per-key rate limit на 25% от обычного
  • Идентифицировать top-N consumers из логов
  • Откатить недавние prompt/template изменения, если коррелируют
Шаблон коммуникации
«Аномалия стоимости обнаружена на LLM-сервисе в HH:MM. Throttling активен; user impact — rate-limited ответы. Расследование root cause идёт; ETA нормальной capacity в Xh.»
Паттерны Root Cause
  • Свободный top-k в RAG retrieval
  • Удалили reranker по ошибке
  • Изменение prompt раздувает context
  • Abuse / scraping паттерн
Prevention Update
Token-per-query alarm на 1.5x baseline. Per-key rate limit + budget cap. Reranker обязателен по policy.
INC-02

Hallucination на масштабе по конкретной теме

P1
Сигналы обнаружения
  • Cluster жалоб клиентов на один неверный факт
  • Eval regression на subset темы
  • Citation rate drop на retrieved chunks
Immediate Triage
  • Добавить hardcoded refusal по теме до фикса
  • Проверить retrieval против ground truth на репрезентативных queries
  • Подтвердить, что RAG corpus содержит правильную информацию
Шаблон коммуникации
«Мы идентифицировали некорректные ответы по теме X. Ассистент сейчас отклоняет тему, пока чиним retrieval. ETA возврата в работу: Xh.»
Паттерны Root Cause
  • Retrieval не выдаёт правильный chunk
  • Embedding model misalignment по терминологии
  • Corpus stale или отсутствует факт
  • System prompt допускает speculation
Prevention Update
Golden-set evaluation с темой. Citation requirement enforced в prompt. Schedule corpus freshness audit.
INC-03

Silent model drift (vendor update)

P2
Сигналы обнаружения
  • Eval score drop без code change
  • Output distribution shift
  • Customer feedback shift за неделю
Immediate Triage
  • Pin к known-good model version, если vendor позволяет
  • A/B compare current vs prior version на golden set
  • Откатить affected prompts к version-pinned model
Шаблон коммуникации
«Internal: подозрение на model drift на vendor X. Регрессия Y% наблюдается. Pinning к prior version, пока расследуем.»
Паттерны Root Cause
  • Vendor молча обновил underlying model
  • Vendor deprecated feature, на котором завязан prompt
  • Tokenizer изменился под тем же model name
Prevention Update
Version-pin для каждого model в production. Subscribe к vendor changelog. Eval в CI для catch drift.
INC-04

Prompt injection через retrieved content

P0
Сигналы обнаружения
  • Аномальные tool calls
  • Output, содержащий данные не от текущего пользователя
  • Подозрительный system-prompt leakage в ответах
Immediate Triage
  • Отключить tool calling для retrieved-content sessions
  • Quarantine подозрительных документов
  • Force re-auth на affected sessions
Шаблон коммуникации
«Internal P0: вектор prompt injection обнаружен через document upload. Tools отключены, пока расследуем scope. Уведомления клиентам нет до оценки impact.»
Паттерны Root Cause
  • Retrieved content трактуется как instruction
  • User-uploaded документ не фильтруется
  • RAG corpus загрязнён adversarial entries
Prevention Update
System prompt, запрещающий следовать retrieved-инструкциям. Output validation. Content scanning до ingestion. Tool-call allowlist независимо от LLM output.
INC-05

PII leak в LLM output

P0
Сигналы обнаружения
  • DLP alert
  • Customer report
  • Audit log с PII в response
Immediate Triage
  • Отключить affected endpoint
  • Привлечь legal + privacy officer
  • Идентифицировать scope: какие пользователи, какие данные, сколько calls
Шаблон коммуникации
«Internal P0: появление PII в LLM output на endpoint X. Endpoint отключён. Legal привлечён. Детальная оценка scope в 4h.»
Паттерны Root Cause
  • PII в RAG corpus, который должен был быть redacted
  • Недостаточный output filtering
  • Cross-tenant retrieval leak
  • Model обучен на PII (на стороне vendor)
Prevention Update
PII scrubbing на ingestion И output. Tenant filter на retrieval layer. Output DLP scan. Периодический red-team.
INC-06

Vendor outage

P1
Сигналы обнаружения
  • Status page vendor'а жёлтый/красный
  • Spike 5xx от vendor API
  • Latency p95 превышает threshold
Immediate Triage
  • Активировать self-hosted fallback ИЛИ альтернативный vendor через gateway
  • Feature flag к degraded mode для non-critical AI paths
  • Обновить status page
Шаблон коммуникации
«Некоторые AI features работают в degraded mode из-за upstream vendor outage. Полная функциональность вернётся, когда vendor восстановится; будем обновлять status почасово.»
Паттерны Root Cause
  • Vendor incident
  • Regional vendor outage без multi-region fallback
  • Rate-limit hit из-за изменения usage pattern
Prevention Update
Gateway-based multi-vendor с automatic failover. Self-hosted fallback для compliance-critical paths. Graceful degradation feature flags.
INC-07

Latency degradation

P2
Сигналы обнаружения
  • p95 над SLA >15 мин
  • Queue depth растёт
  • Customer satisfaction metric drop
Immediate Triage
  • Добавить caching layer для hot prompts
  • Shed non-critical traffic
  • Проверить vendor status; switch region если применимо
Шаблон коммуникации
«Видим повышенные времена ответа в AI features. Mitigations в работе; normal latency ожидается в Xh.»
Паттерны Root Cause
  • Vendor regional latency
  • Context window вырос из-за corpus growth
  • Reranker — bottleneck
  • Cold cache после deploy
Prevention Update
Latency SLO alarms. Hot-prompt cache. Streaming responses где применимо. Reranker capacity planning.
INC-08

Quality regression после prompt change

P2
Сигналы обнаружения
  • Eval score drop после deploy
  • Customer feedback shift
  • Internal QA flag
Immediate Triage
  • Откатить prompt к previous version
  • A/B compare с rolled-back версией
  • Аннотировать failing samples для analysis
Шаблон коммуникации
«Internal: regression качества обнаружена на feature X после prompt change в Y. Reverted; расследуем root cause.»
Паттерны Root Cause
  • Prompt change тестировался только на happy path
  • Edge cases сломались
  • Negative-space examples не в eval
Prevention Update
Mandatory golden-set eval до prompt deploy. Negative-space examples в eval. Canary deployment для prompts.
INC-09

Tool-use loop / runaway agent

P1
Сигналы обнаружения
  • Spike tool call count per session
  • Long-running session metric
  • Cost-per-session аномалия
Immediate Triage
  • Hard cap tool calls per session
  • Kill long sessions сверх limit
  • Отключить конкретный tool, если он — loop driver
Шаблон коммуникации
«Internal: agent loop обнаружен. Per-session call cap снижен. Расследование идёт.»
Паттерны Root Cause
  • Tool возвращает неоднозначный результат, ведущий к retry
  • Plan-and-execute prompt поощряет повторение
  • Нет completion criterion в prompt
Prevention Update
Per-session call budget. Completion criterion в system prompt. Tool result validation до next step.
INC-10

Compliance audit finding по AI

P1
Сигналы обнаружения
  • External или internal audit finding
  • Regulator inquiry
  • Customer compliance review failure
Immediate Triage
  • Задокументировать scope и timeline finding'а
  • Привлечь compliance + legal
  • Suspend конкретный affected feature если рекомендовано
Шаблон коммуникации
«Internal: audit finding требует ответа к дате D. Привлекаем legal + compliance. Customer-facing communication ждёт legal review.»
Паттерны Root Cause
  • Missing audit log
  • Недостаточное evidence для compliance baseline control
  • Configuration drift с прошлого audit
Prevention Update
Audit log retention review. Map каждый control в 12-control baseline к evidence. Schedule quarterly pre-audit.
INC-11

Embedding corpus poisoning

P0
Сигналы обнаружения
  • Аномальный cluster ответов от конкретного retrieval pattern
  • Необычные документы появляются высоко в retrieval
  • External report о malicious upload
Immediate Triage
  • Отключить user-content ingestion временно
  • Re-embed corpus с trusted source
  • Quarantine подозрительных документов
Шаблон коммуникации
«Internal P0: потенциальный corpus poisoning. User-content ingestion отключён. Re-indexing идёт.»
Паттерны Root Cause
  • Unauthenticated user-content ingestion
  • Недостаточная content moderation
  • Adversarial uploader эксплуатирует public path
Prevention Update
Аутентификация каждого ingestion path. Content classifier на ingestion. Provenance tracking для каждого chunk.
INC-12

Token / credential leak в prompt

P0
Сигналы обнаружения
  • Credential появляется в vendor логах
  • Customer credential rotation alert
  • Secrets scanner alert
Immediate Triage
  • Ротировать credential немедленно
  • Аудит access logs на misuse в exposure window
  • Отключить integration, который утёк
Шаблон коммуникации
«Internal P0: credential exposure. Rotation завершена; access logs в обзоре на misuse window Xh.»
Паттерны Root Cause
  • Credential включён в retrieved chunk
  • Пользователь вставил secret в chat, который был залогирован
  • Debug logging засветил secret
Prevention Update
Secret pre-filter на каждом user input + retrieved chunk. Vendor log redaction policy. Никогда не логировать raw prompts в production.
INC-13

Stale data из RAG после изменения source

P2
Сигналы обнаружения
  • Customer report устаревшей информации
  • Reindex job failure log
  • Cache invalidation alarm
Immediate Triage
  • Force reindex affected source
  • Отключить cache для affected topic
  • Подтвердить freshness через spot-check
Шаблон коммуникации
«Customer-facing: мы идентифицировали, что некоторые ответы базировались на устаревших данных. Index обновлён; пожалуйста, попробуйте снова.»
Паттерны Root Cause
  • Failed reindex job без alerting
  • Cache TTL слишком долгий для source change cadence
  • Webhook от source отвалился
Prevention Update
Reindex job health alarm. Source-change webhook retries с DLQ. Per-source freshness SLO.
INC-14

Пересечение регуляторной границы (data residency)

P0
Сигналы обнаружения
  • Vendor processing log с cross-border data flow
  • Compliance review finding
  • Customer escalation
Immediate Triage
  • Направить affected traffic к in-region endpoint
  • Привлечь legal
  • Задокументировать scope cross-border processing
Шаблон коммуникации
«Internal P0: data-residency boundary возможно пересечена. Routing исправлен. Legal оценивает notification obligations.»
Паттерны Root Cause
  • Vendor request направлен в неожиданный регион
  • Self-hosted fallback в другой jurisdiction
  • DPA не покрывает routing
Prevention Update
Vendor SLA включает region pinning. Self-hosted fallback in-region. Map каждый data flow против DPA matrix.

Common Post-Incident Actions

ДействиеOwnerDeliverable
Postmortem в течение 5 рабочих днейIncident CommanderДокумент с timeline, impact, root cause, action items, owners, dates.
Обновить AI Failure Modes Catalog, если появился новый modeAI Platform LeadPR в internal failure-modes register.
Обновить governance baseline, если control failedAI Risk LeadОбновлённый baseline + оценка других систем против того же control.
Обновить vendor scorecard, если vendor-relatedProcurementКорректировка score + next-review date перенесён вперёд.