גרסה 2026-06 · CC-BY-4.0

Playbook לתגובת תקריות AI

14 קלאסי תקריות של AI בייצור — סימני זיהוי, triage מיידי, תבניות תקשורת, דפוסי root cause, עדכוני prevention.

שמרו כ-PDF: לחצו Ctrl+P או +P, בחרו “שמור כ-PDF”. הדף מעוצב להדפסה נקייה.
איך להשתמש ב-playbook. Companion ל-Failure Modes Catalog: failure modes נתפסים לפני השקה; תקריות הן מה שמגיע ל-production למרות הביקורת. לכל קלאס: וודאו ש-detection signals תואמים, הריצו immediate triage, שלחו הודעת תקשורת (substitute placeholders), תעדו root cause מול הדפוסים, הגישו prevention update כך שהמקרה הבא נתפס על-ידי control ולא על-ידי human ב-02:00. נבנה מ-150+ engagement'ים שבהם מערכות AI בייצור חוו תקריות שדרשו תגובה מתועדת.
P0 קריטי — page on-call P1 גבוה — mitigate בתוך שעות P2 בינוני — בתוך יום עסקים P3 נמוך — investigation בלבד
INC-01

פיצוץ עלות LLM

P1
סימני זיהוי
  • Spend metric עובר 2x ה-budget היומי
  • Tokens-per-query metric step-change
  • Vendor billing alert
Triage מיידי
  • הפעילו per-key rate limit ב-25% מרגיל
  • זהו top-N consumers מ-logs
  • בצעו rollback לשינויי prompt/template אחרונים אם correlated
תבנית תקשורת
“אנומלית עלות זוהתה על שירות LLM ב-HH:MM. Throttling פעיל; user impact: תגובות עם rate-limit. חקירת root cause בעיצומה; ETA לקיבולת רגילה תוך Xh.”
דפוסי Root Cause
  • top-k רופף ב-RAG retrieval
  • Reranker הוסר בטעות
  • שינוי prompt שמנפח context
  • Abuse / scraping
עדכון Prevention
Tokens-per-query alarm ב-1.5x baseline. Per-key rate limit ו-budget cap. Reranker חובה לפי policy.
INC-02

Hallucination בקנה מידה על נושא ספציפי

P1
סימני זיהוי
  • cluster תלונות לקוחות על אותה עובדה שגויה
  • Eval regression ב-subset של נושא
  • Citation rate drop על chunks שאוחזרו
Triage מיידי
  • הוסיפו hard-coded refusal לנושא עד תיקון
  • בדקו retrieval מול ground truth על queries מייצגים
  • וודאו ש-corpus RAG מכיל את המידע הנכון
תבנית תקשורת
“זיהינו תגובות שגויות בנושא X. ה-assistant כעת מסרב לנושא עד שנתקן retrieval. ETA לחזרה לשירות: Xh.”
דפוסי Root Cause
  • Retrieval לא מציף את ה-chunk הנכון
  • Embedding model misalignment בטרמינולוגיה
  • Corpus stale או חסר העובדה
  • System prompt מאפשר speculation
עדכון Prevention
Golden-set evaluation שכולל את הנושא. Citation requirement enforced ב-prompt. Audit טריות ל-corpus.
INC-03

Drift שקט של model (vendor update)

P2
סימני זיהוי
  • Eval score drop ללא code change
  • Output distribution shift
  • Customer feedback shift לאורך שבוע
Triage מיידי
  • Pin לגרסת model ידועה-טובה אם vendor מאפשר
  • A/B compare current vs prior על golden set
  • Rollback prompts מושפעים ל-version-pinned model
תבנית תקשורת
“Internal: drift של model נחשד על vendor X. Regression של Y% נצפה. Pinning לגרסה קודמת עד חקירה.”
דפוסי Root Cause
  • Vendor עדכן את ה-underlying model בשקט
  • Vendor הסיר feature ש-prompt תלוי בו
  • Tokenizer השתנה תחת אותו שם model
עדכון Prevention
Version-pin לכל model ב-production. Subscribe ל-vendor changelog. Eval ב-CI לתפיסת drift.
INC-04

Prompt injection דרך retrieved content

P0
סימני זיהוי
  • Tool calls אנומליים
  • Output מכיל data שלא מה-user הנוכחי
  • System-prompt leakage חשוד בתגובות
Triage מיידי
  • השביתו tool calling ל-sessions עם retrieved content
  • Quarantine למסמכים חשודים
  • Force re-auth על sessions מושפעים
תבנית תקשורת
“Internal P0: וקטור prompt injection זוהה דרך document upload. Tools מושבתים עד חקירת scope. אין הודעה ללקוחות עד הערכת impact.”
דפוסי Root Cause
  • Retrieved content נטופל כ-instruction
  • מסמך משתמש לא מסונן
  • Corpus RAG מזוהם בערכים אדברסריאליים
עדכון Prevention
System prompt שאוסר לעקוב אחר retrieved instructions. Output validation. Content scanning לפני ingestion. Tool-call allowlist נפרד מ-LLM output.
INC-05

PII leak ב-LLM output

P0
סימני זיהוי
  • DLP alert
  • תלונת לקוח
  • Audit log שמראה PII בתגובה
Triage מיידי
  • השביתו endpoint מושפע
  • הפעילו legal ו-privacy officer
  • זהו scope: אילו משתמשים, איזה data, כמה calls
תבנית תקשורת
“Internal P0: PII זוהה ב-LLM output על endpoint X. Endpoint מושבת. Legal מעורב. הערכת scope תוך 4h.”
דפוסי Root Cause
  • PII ב-RAG corpus שהיה צריך redaction
  • Output filtering לא מספיק
  • Cross-tenant retrieval leak
  • Model אומן על PII (צד vendor)
עדכון Prevention
PII scrubbing ב-ingestion ו-output. Tenant filter ב-retrieval layer. Output DLP scan. Red-team תקופתי.
INC-06

Vendor outage

P1
סימני זיהוי
  • Status page של vendor צהוב/אדום
  • Spike ב-5xx מ-vendor API
  • Latency p95 חורג מ-threshold
Triage מיידי
  • Activate self-hosted fallback או vendor חלופי דרך gateway
  • Feature flag ל-degraded mode ב-AI paths לא-קריטיים
  • עדכנו status page
תבנית תקשורת
“חלק מ-AI features רצים ב-degraded mode עקב outage של upstream vendor. פונקציונליות מלאה תחזור כש-vendor יתאושש; נעדכן status שעתי.”
דפוסי Root Cause
  • Vendor incident
  • Regional vendor outage ללא multi-region fallback
  • Rate-limit hit כי usage pattern שונה
עדכון Prevention
Gateway-based multi-vendor עם automatic failover. Self-hosted fallback ל-compliance-critical paths. Graceful degradation feature flags.
INC-07

Latency degradation

P2
סימני זיהוי
  • p95 מעל SLA למשך >15 דק'
  • Queue depth גדל
  • Customer satisfaction metric drop
Triage מיידי
  • הוסיפו caching layer ל-hot prompts
  • Shed traffic לא-קריטי
  • בדקו vendor status; switch region אם רלוונטי
תבנית תקשורת
“אנו רואים זמני תגובה גבוהים יותר ב-AI features. Mitigations פעילים; latency רגיל מצופה תוך Xh.”
דפוסי Root Cause
  • Vendor regional latency
  • Context window גדל בגלל corpus growth
  • Reranker הוא ה-bottleneck
  • Cold cache אחרי deploy
עדכון Prevention
Latency SLO alarms. Hot-prompt cache. Streaming responses היכן שאפשר. Reranker capacity planning.
INC-08

Regression איכות אחרי שינוי prompt

P2
סימני זיהוי
  • Eval score drop אחרי deploy
  • Customer feedback shift
  • Internal QA flag
Triage מיידי
  • Rollback ל-prompt לגרסה קודמת
  • A/B compare מול הגרסה ש-rolled back
  • סמנו failing samples לניתוח
תבנית תקשורת
“Internal: regression איכות זוהתה על feature X אחרי שינוי prompt ב-Y. Reverted; חוקרים root cause.”
דפוסי Root Cause
  • שינוי prompt נבדק רק על happy path
  • Edge cases נשברו
  • Negative-space examples לא ב-eval
עדכון Prevention
Golden-set eval חובה לפני prompt deploy. Negative-space examples ב-eval. Canary deployment ל-prompts.
INC-09

Tool-use loop / runaway agent

P1
סימני זיהוי
  • Spike ב-tool call count per session
  • Long-running session metric
  • Cost-per-session anomaly
Triage מיידי
  • Hard cap על tool calls per session
  • Kill sessions ארוכים מעל limit
  • השביתו tool ספציפי אם הוא driver של ה-loop
תבנית תקשורת
“Internal: agent loop זוהה. Per-session call cap הופחת. חקירה בעיצומה.”
דפוסי Root Cause
  • Tool מחזיר תוצאה דו-משמעית שמובילה ל-retry
  • Plan-and-execute prompt מעודד repetition
  • אין completion criterion ב-prompt
עדכון Prevention
Per-session call budget. Completion criterion ב-system prompt. Tool result validation לפני next step.
INC-10

Compliance audit finding על AI

P1
סימני זיהוי
  • External או internal audit finding
  • Regulator inquiry
  • Customer compliance review failure
Triage מיידי
  • תעדו scope ו-timeline של finding
  • הפעילו compliance ו-legal
  • Suspend feature ספציפית אם מומלץ
תבנית תקשורת
“Internal: audit finding דורש response עד תאריך D. מעורבים legal ו-compliance. תקשורת ללקוח ממתינה ל-legal review.”
דפוסי Root Cause
  • Audit log חסר
  • Evidence לא מספיק ל-compliance baseline control
  • Configuration drift מאז audit קודם
עדכון Prevention
סקירת audit log retention. Map כל control ב-12-control baseline ל-evidence. Quarterly pre-audit מתוזמן.
INC-11

Embedding corpus poisoning

P0
סימני זיהוי
  • Cluster תגובות אנומלי מ-retrieval pattern ספציפי
  • מסמכים יוצאי דופן מופיעים גבוה ב-retrieval
  • דיווח חיצוני על malicious upload
Triage מיידי
  • השביתו user-content ingestion זמנית
  • Re-embed את ה-corpus ממקור מהימן
  • Quarantine מסמכים חשודים
תבנית תקשורת
“Internal P0: corpus poisoning פוטנציאלי. User-content ingestion מושבת. Re-indexing בעיצומו.”
דפוסי Root Cause
  • Unauthenticated user-content ingestion
  • Content moderation לא מספיק
  • Adversarial uploader מנצל public path
עדכון Prevention
אימות כל ingestion path. Content classifier ב-ingestion. Provenance tracking על כל chunk.
INC-12

Token / credential leak ב-prompt

P0
סימני זיהוי
  • Credential מופיע ב-vendor logs
  • Customer credential rotation alert
  • Secrets scanner alert
Triage מיידי
  • Rotate credential מיידית
  • Audit access logs ל-misuse בזמן exposure window
  • השביתו integration שהדליפה
תבנית תקשורת
“Internal P0: credential exposure. Rotation הושלמה; access logs בסקירה ל-misuse window של Xh.”
דפוסי Root Cause
  • Credential נכלל ב-retrieved chunk
  • משתמש הדביק secret ב-chat שתועד
  • Debug logging חשף secret
עדכון Prevention
Secret pre-filter על כל user input ו-retrieved chunk. Vendor log redaction policy. אל תרשמו raw prompts ב-production.
INC-13

Data stale מ-RAG אחרי שינוי מקור

P2
סימני זיהוי
  • Customer report של מידע לא-עדכני
  • Reindex job failure log
  • Cache invalidation alarm
Triage מיידי
  • Force reindex של מקור מושפע
  • השביתו cache לנושא מושפע
  • וודאו freshness ב-spot-check
תבנית תקשורת
“Customer-facing: זיהינו שחלק מהתגובות התבססו על data ישן. Index רוענן; אנא נסו שוב.”
דפוסי Root Cause
  • Reindex job נכשל ולא הותרע
  • Cache TTL ארוך מדי ל-source change cadence
  • Webhook ממקור נושר
עדכון Prevention
Reindex job health alarm. Source-change webhook retries עם DLQ. Per-source freshness SLO.
INC-14

חציית גבול רגולטורי (data residency)

P0
סימני זיהוי
  • Vendor processing log שמראה cross-border data flow
  • Compliance review finding
  • Customer escalation
Triage מיידי
  • נתבו traffic מושפע ל-in-region endpoint
  • הפעילו legal
  • תעדו scope של cross-border processing
תבנית תקשורת
“Internal P0: data-residency boundary אולי נחצה. Routing תוקן. Legal מעריך notification obligations.”
דפוסי Root Cause
  • Vendor request נותב ל-region לא צפוי
  • Self-hosted fallback ב-jurisdiction אחר
  • DPA לא מכסה את ה-routing
עדכון Prevention
Vendor SLA כולל region pinning. Self-hosted fallback in-region. Map כל data flow מול DPA matrix.

פעולות Post-Incident נפוצות

פעולהאחראיתוצר
Postmortem תוך 5 ימי עסקיםIncident Commanderמסמך עם timeline, impact, root cause, action items, אחראים, תאריכים.
עדכון AI Failure Modes Catalog אם דפוס חדש עלהAI Platform LeadPR ל-failure-modes register פנימי.
עדכון governance baseline אם control נכשלAI Risk LeadBaseline מעודכן + הערכת מערכות אחרות מול אותו control.
עדכון vendor scorecard אם vendor-relatedProcurementהתאמת score + next-review date מוקדם יותר.