Playbook לתגובת תקריות AI
14 קלאסי תקריות של AI בייצור — סימני זיהוי, triage מיידי, תבניות תקשורת, דפוסי root cause, עדכוני prevention.
שמרו כ-PDF: לחצו Ctrl+P או ⌘+P, בחרו “שמור כ-PDF”. הדף מעוצב להדפסה נקייה.
איך להשתמש ב-playbook. Companion ל-Failure Modes Catalog: failure modes נתפסים לפני השקה; תקריות הן מה שמגיע ל-production למרות הביקורת. לכל קלאס: וודאו ש-detection signals תואמים, הריצו immediate triage, שלחו הודעת תקשורת (substitute placeholders), תעדו root cause מול הדפוסים, הגישו prevention update כך שהמקרה הבא נתפס על-ידי control ולא על-ידי human ב-02:00. נבנה מ-150+ engagement'ים שבהם מערכות AI בייצור חוו תקריות שדרשו תגובה מתועדת.
P0 קריטי — page on-call
P1 גבוה — mitigate בתוך שעות
P2 בינוני — בתוך יום עסקים
P3 נמוך — investigation בלבד
INC-01
פיצוץ עלות LLM
P1
- סימני זיהוי
- Spend metric עובר 2x ה-budget היומי
- Tokens-per-query metric step-change
- Vendor billing alert
- Triage מיידי
- הפעילו per-key rate limit ב-25% מרגיל
- זהו top-N consumers מ-logs
- בצעו rollback לשינויי prompt/template אחרונים אם correlated
- תבנית תקשורת
- “אנומלית עלות זוהתה על שירות LLM ב-HH:MM. Throttling פעיל; user impact: תגובות עם rate-limit. חקירת root cause בעיצומה; ETA לקיבולת רגילה תוך Xh.”
- דפוסי Root Cause
- top-k רופף ב-RAG retrieval
- Reranker הוסר בטעות
- שינוי prompt שמנפח context
- Abuse / scraping
- עדכון Prevention
- Tokens-per-query alarm ב-1.5x baseline. Per-key rate limit ו-budget cap. Reranker חובה לפי policy.
INC-02
Hallucination בקנה מידה על נושא ספציפי
P1
- סימני זיהוי
- cluster תלונות לקוחות על אותה עובדה שגויה
- Eval regression ב-subset של נושא
- Citation rate drop על chunks שאוחזרו
- Triage מיידי
- הוסיפו hard-coded refusal לנושא עד תיקון
- בדקו retrieval מול ground truth על queries מייצגים
- וודאו ש-corpus RAG מכיל את המידע הנכון
- תבנית תקשורת
- “זיהינו תגובות שגויות בנושא X. ה-assistant כעת מסרב לנושא עד שנתקן retrieval. ETA לחזרה לשירות: Xh.”
- דפוסי Root Cause
- Retrieval לא מציף את ה-chunk הנכון
- Embedding model misalignment בטרמינולוגיה
- Corpus stale או חסר העובדה
- System prompt מאפשר speculation
- עדכון Prevention
- Golden-set evaluation שכולל את הנושא. Citation requirement enforced ב-prompt. Audit טריות ל-corpus.
INC-03
Drift שקט של model (vendor update)
P2
- סימני זיהוי
- Eval score drop ללא code change
- Output distribution shift
- Customer feedback shift לאורך שבוע
- Triage מיידי
- Pin לגרסת model ידועה-טובה אם vendor מאפשר
- A/B compare current vs prior על golden set
- Rollback prompts מושפעים ל-version-pinned model
- תבנית תקשורת
- “Internal: drift של model נחשד על vendor X. Regression של Y% נצפה. Pinning לגרסה קודמת עד חקירה.”
- דפוסי Root Cause
- Vendor עדכן את ה-underlying model בשקט
- Vendor הסיר feature ש-prompt תלוי בו
- Tokenizer השתנה תחת אותו שם model
- עדכון Prevention
- Version-pin לכל model ב-production. Subscribe ל-vendor changelog. Eval ב-CI לתפיסת drift.
INC-04
Prompt injection דרך retrieved content
P0
- סימני זיהוי
- Tool calls אנומליים
- Output מכיל data שלא מה-user הנוכחי
- System-prompt leakage חשוד בתגובות
- Triage מיידי
- השביתו tool calling ל-sessions עם retrieved content
- Quarantine למסמכים חשודים
- Force re-auth על sessions מושפעים
- תבנית תקשורת
- “Internal P0: וקטור prompt injection זוהה דרך document upload. Tools מושבתים עד חקירת scope. אין הודעה ללקוחות עד הערכת impact.”
- דפוסי Root Cause
- Retrieved content נטופל כ-instruction
- מסמך משתמש לא מסונן
- Corpus RAG מזוהם בערכים אדברסריאליים
- עדכון Prevention
- System prompt שאוסר לעקוב אחר retrieved instructions. Output validation. Content scanning לפני ingestion. Tool-call allowlist נפרד מ-LLM output.
INC-05
PII leak ב-LLM output
P0
- סימני זיהוי
- DLP alert
- תלונת לקוח
- Audit log שמראה PII בתגובה
- Triage מיידי
- השביתו endpoint מושפע
- הפעילו legal ו-privacy officer
- זהו scope: אילו משתמשים, איזה data, כמה calls
- תבנית תקשורת
- “Internal P0: PII זוהה ב-LLM output על endpoint X. Endpoint מושבת. Legal מעורב. הערכת scope תוך 4h.”
- דפוסי Root Cause
- PII ב-RAG corpus שהיה צריך redaction
- Output filtering לא מספיק
- Cross-tenant retrieval leak
- Model אומן על PII (צד vendor)
- עדכון Prevention
- PII scrubbing ב-ingestion ו-output. Tenant filter ב-retrieval layer. Output DLP scan. Red-team תקופתי.
INC-06
Vendor outage
P1
- סימני זיהוי
- Status page של vendor צהוב/אדום
- Spike ב-5xx מ-vendor API
- Latency p95 חורג מ-threshold
- Triage מיידי
- Activate self-hosted fallback או vendor חלופי דרך gateway
- Feature flag ל-degraded mode ב-AI paths לא-קריטיים
- עדכנו status page
- תבנית תקשורת
- “חלק מ-AI features רצים ב-degraded mode עקב outage של upstream vendor. פונקציונליות מלאה תחזור כש-vendor יתאושש; נעדכן status שעתי.”
- דפוסי Root Cause
- Vendor incident
- Regional vendor outage ללא multi-region fallback
- Rate-limit hit כי usage pattern שונה
- עדכון Prevention
- Gateway-based multi-vendor עם automatic failover. Self-hosted fallback ל-compliance-critical paths. Graceful degradation feature flags.
INC-07
Latency degradation
P2
- סימני זיהוי
- p95 מעל SLA למשך >15 דק'
- Queue depth גדל
- Customer satisfaction metric drop
- Triage מיידי
- הוסיפו caching layer ל-hot prompts
- Shed traffic לא-קריטי
- בדקו vendor status; switch region אם רלוונטי
- תבנית תקשורת
- “אנו רואים זמני תגובה גבוהים יותר ב-AI features. Mitigations פעילים; latency רגיל מצופה תוך Xh.”
- דפוסי Root Cause
- Vendor regional latency
- Context window גדל בגלל corpus growth
- Reranker הוא ה-bottleneck
- Cold cache אחרי deploy
- עדכון Prevention
- Latency SLO alarms. Hot-prompt cache. Streaming responses היכן שאפשר. Reranker capacity planning.
INC-08
Regression איכות אחרי שינוי prompt
P2
- סימני זיהוי
- Eval score drop אחרי deploy
- Customer feedback shift
- Internal QA flag
- Triage מיידי
- Rollback ל-prompt לגרסה קודמת
- A/B compare מול הגרסה ש-rolled back
- סמנו failing samples לניתוח
- תבנית תקשורת
- “Internal: regression איכות זוהתה על feature X אחרי שינוי prompt ב-Y. Reverted; חוקרים root cause.”
- דפוסי Root Cause
- שינוי prompt נבדק רק על happy path
- Edge cases נשברו
- Negative-space examples לא ב-eval
- עדכון Prevention
- Golden-set eval חובה לפני prompt deploy. Negative-space examples ב-eval. Canary deployment ל-prompts.
INC-09
Tool-use loop / runaway agent
P1
- סימני זיהוי
- Spike ב-tool call count per session
- Long-running session metric
- Cost-per-session anomaly
- Triage מיידי
- Hard cap על tool calls per session
- Kill sessions ארוכים מעל limit
- השביתו tool ספציפי אם הוא driver של ה-loop
- תבנית תקשורת
- “Internal: agent loop זוהה. Per-session call cap הופחת. חקירה בעיצומה.”
- דפוסי Root Cause
- Tool מחזיר תוצאה דו-משמעית שמובילה ל-retry
- Plan-and-execute prompt מעודד repetition
- אין completion criterion ב-prompt
- עדכון Prevention
- Per-session call budget. Completion criterion ב-system prompt. Tool result validation לפני next step.
INC-10
Compliance audit finding על AI
P1
- סימני זיהוי
- External או internal audit finding
- Regulator inquiry
- Customer compliance review failure
- Triage מיידי
- תעדו scope ו-timeline של finding
- הפעילו compliance ו-legal
- Suspend feature ספציפית אם מומלץ
- תבנית תקשורת
- “Internal: audit finding דורש response עד תאריך D. מעורבים legal ו-compliance. תקשורת ללקוח ממתינה ל-legal review.”
- דפוסי Root Cause
- Audit log חסר
- Evidence לא מספיק ל-compliance baseline control
- Configuration drift מאז audit קודם
- עדכון Prevention
- סקירת audit log retention. Map כל control ב-12-control baseline ל-evidence. Quarterly pre-audit מתוזמן.
INC-11
Embedding corpus poisoning
P0
- סימני זיהוי
- Cluster תגובות אנומלי מ-retrieval pattern ספציפי
- מסמכים יוצאי דופן מופיעים גבוה ב-retrieval
- דיווח חיצוני על malicious upload
- Triage מיידי
- השביתו user-content ingestion זמנית
- Re-embed את ה-corpus ממקור מהימן
- Quarantine מסמכים חשודים
- תבנית תקשורת
- “Internal P0: corpus poisoning פוטנציאלי. User-content ingestion מושבת. Re-indexing בעיצומו.”
- דפוסי Root Cause
- Unauthenticated user-content ingestion
- Content moderation לא מספיק
- Adversarial uploader מנצל public path
- עדכון Prevention
- אימות כל ingestion path. Content classifier ב-ingestion. Provenance tracking על כל chunk.
INC-12
Token / credential leak ב-prompt
P0
- סימני זיהוי
- Credential מופיע ב-vendor logs
- Customer credential rotation alert
- Secrets scanner alert
- Triage מיידי
- Rotate credential מיידית
- Audit access logs ל-misuse בזמן exposure window
- השביתו integration שהדליפה
- תבנית תקשורת
- “Internal P0: credential exposure. Rotation הושלמה; access logs בסקירה ל-misuse window של Xh.”
- דפוסי Root Cause
- Credential נכלל ב-retrieved chunk
- משתמש הדביק secret ב-chat שתועד
- Debug logging חשף secret
- עדכון Prevention
- Secret pre-filter על כל user input ו-retrieved chunk. Vendor log redaction policy. אל תרשמו raw prompts ב-production.
INC-13
Data stale מ-RAG אחרי שינוי מקור
P2
- סימני זיהוי
- Customer report של מידע לא-עדכני
- Reindex job failure log
- Cache invalidation alarm
- Triage מיידי
- Force reindex של מקור מושפע
- השביתו cache לנושא מושפע
- וודאו freshness ב-spot-check
- תבנית תקשורת
- “Customer-facing: זיהינו שחלק מהתגובות התבססו על data ישן. Index רוענן; אנא נסו שוב.”
- דפוסי Root Cause
- Reindex job נכשל ולא הותרע
- Cache TTL ארוך מדי ל-source change cadence
- Webhook ממקור נושר
- עדכון Prevention
- Reindex job health alarm. Source-change webhook retries עם DLQ. Per-source freshness SLO.
INC-14
חציית גבול רגולטורי (data residency)
P0
- סימני זיהוי
- Vendor processing log שמראה cross-border data flow
- Compliance review finding
- Customer escalation
- Triage מיידי
- נתבו traffic מושפע ל-in-region endpoint
- הפעילו legal
- תעדו scope של cross-border processing
- תבנית תקשורת
- “Internal P0: data-residency boundary אולי נחצה. Routing תוקן. Legal מעריך notification obligations.”
- דפוסי Root Cause
- Vendor request נותב ל-region לא צפוי
- Self-hosted fallback ב-jurisdiction אחר
- DPA לא מכסה את ה-routing
- עדכון Prevention
- Vendor SLA כולל region pinning. Self-hosted fallback in-region. Map כל data flow מול DPA matrix.
פעולות Post-Incident נפוצות
| פעולה | אחראי | תוצר |
| Postmortem תוך 5 ימי עסקים | Incident Commander | מסמך עם timeline, impact, root cause, action items, אחראים, תאריכים. |
| עדכון AI Failure Modes Catalog אם דפוס חדש עלה | AI Platform Lead | PR ל-failure-modes register פנימי. |
| עדכון governance baseline אם control נכשל | AI Risk Lead | Baseline מעודכן + הערכת מערכות אחרות מול אותו control. |
| עדכון vendor scorecard אם vendor-related | Procurement | התאמת score + next-review date מוקדם יותר. |