גרסה 2026-06 · CC-BY-4.0

Playbook לתגובת תקריות AI

14 קלאסי תקריות של AI בייצור — סימני זיהוי, triage מיידי, תבניות תקשורת, דפוסי root cause, עדכוני prevention.

שמרו כ-PDF: לחצו Ctrl+P או ⌘+P, בחרו “שמור כ-PDF”. הדף מעוצב להדפסה נקייה.

איך להשתמש ב-playbook. Companion ל-Failure Modes Catalog: failure modes נתפסים לפני השקה; תקריות הן מה שמגיע ל-production למרות הביקורת. לכל קלאס: וודאו ש-detection signals תואמים, הריצו immediate triage, שלחו הודעת תקשורת (substitute placeholders), תעדו root cause מול הדפוסים, הגישו prevention update כך שהמקרה הבא נתפס על-ידי control ולא על-ידי human ב-02:00. נבנה מ-150+ engagement'ים שבהם מערכות AI בייצור חוו תקריות שדרשו תגובה מתועדת.

P0 קריטי — page on-call P1 גבוה — mitigate בתוך שעות P2 בינוני — בתוך יום עסקים P3 נמוך — investigation בלבד

INC-01

פיצוץ עלות LLM

סימני זיהוי

Spend metric עובר 2x ה-budget היומי
Tokens-per-query metric step-change
Vendor billing alert

Triage מיידי

הפעילו per-key rate limit ב-25% מרגיל
זהו top-N consumers מ-logs
בצעו rollback לשינויי prompt/template אחרונים אם correlated

תבנית תקשורת

“אנומלית עלות זוהתה על שירות LLM ב-HH:MM. Throttling פעיל; user impact: תגובות עם rate-limit. חקירת root cause בעיצומה; ETA לקיבולת רגילה תוך Xh.”

דפוסי Root Cause

top-k רופף ב-RAG retrieval
Reranker הוסר בטעות
שינוי prompt שמנפח context
Abuse / scraping

עדכון Prevention

Tokens-per-query alarm ב-1.5x baseline. Per-key rate limit ו-budget cap. Reranker חובה לפי policy.

INC-02

Hallucination בקנה מידה על נושא ספציפי

סימני זיהוי

cluster תלונות לקוחות על אותה עובדה שגויה
Eval regression ב-subset של נושא
Citation rate drop על chunks שאוחזרו

Triage מיידי

הוסיפו hard-coded refusal לנושא עד תיקון
בדקו retrieval מול ground truth על queries מייצגים
וודאו ש-corpus RAG מכיל את המידע הנכון

תבנית תקשורת

“זיהינו תגובות שגויות בנושא X. ה-assistant כעת מסרב לנושא עד שנתקן retrieval. ETA לחזרה לשירות: Xh.”

דפוסי Root Cause

Retrieval לא מציף את ה-chunk הנכון
Embedding model misalignment בטרמינולוגיה
Corpus stale או חסר העובדה
System prompt מאפשר speculation

עדכון Prevention

Golden-set evaluation שכולל את הנושא. Citation requirement enforced ב-prompt. Audit טריות ל-corpus.

INC-03

Drift שקט של model (vendor update)

סימני זיהוי

Eval score drop ללא code change
Output distribution shift
Customer feedback shift לאורך שבוע

Triage מיידי

Pin לגרסת model ידועה-טובה אם vendor מאפשר
A/B compare current vs prior על golden set
Rollback prompts מושפעים ל-version-pinned model

תבנית תקשורת

“Internal: drift של model נחשד על vendor X. Regression של Y% נצפה. Pinning לגרסה קודמת עד חקירה.”

דפוסי Root Cause

Vendor עדכן את ה-underlying model בשקט
Vendor הסיר feature ש-prompt תלוי בו
Tokenizer השתנה תחת אותו שם model

עדכון Prevention

Version-pin לכל model ב-production. Subscribe ל-vendor changelog. Eval ב-CI לתפיסת drift.

INC-04

Prompt injection דרך retrieved content

סימני זיהוי

Tool calls אנומליים
Output מכיל data שלא מה-user הנוכחי
System-prompt leakage חשוד בתגובות

Triage מיידי

השביתו tool calling ל-sessions עם retrieved content
Quarantine למסמכים חשודים
Force re-auth על sessions מושפעים

תבנית תקשורת

“Internal P0: וקטור prompt injection זוהה דרך document upload. Tools מושבתים עד חקירת scope. אין הודעה ללקוחות עד הערכת impact.”

דפוסי Root Cause

Retrieved content נטופל כ-instruction
מסמך משתמש לא מסונן
Corpus RAG מזוהם בערכים אדברסריאליים

עדכון Prevention

System prompt שאוסר לעקוב אחר retrieved instructions. Output validation. Content scanning לפני ingestion. Tool-call allowlist נפרד מ-LLM output.

INC-05

PII leak ב-LLM output

סימני זיהוי

DLP alert
תלונת לקוח
Audit log שמראה PII בתגובה

Triage מיידי

השביתו endpoint מושפע
הפעילו legal ו-privacy officer
זהו scope: אילו משתמשים, איזה data, כמה calls

תבנית תקשורת

“Internal P0: PII זוהה ב-LLM output על endpoint X. Endpoint מושבת. Legal מעורב. הערכת scope תוך 4h.”

דפוסי Root Cause

PII ב-RAG corpus שהיה צריך redaction
Output filtering לא מספיק
Cross-tenant retrieval leak
Model אומן על PII (צד vendor)

עדכון Prevention

PII scrubbing ב-ingestion ו-output. Tenant filter ב-retrieval layer. Output DLP scan. Red-team תקופתי.

INC-06

Vendor outage

סימני זיהוי

Status page של vendor צהוב/אדום
Spike ב-5xx מ-vendor API
Latency p95 חורג מ-threshold

Triage מיידי

Activate self-hosted fallback או vendor חלופי דרך gateway
Feature flag ל-degraded mode ב-AI paths לא-קריטיים
עדכנו status page

תבנית תקשורת

“חלק מ-AI features רצים ב-degraded mode עקב outage של upstream vendor. פונקציונליות מלאה תחזור כש-vendor יתאושש; נעדכן status שעתי.”

דפוסי Root Cause

Vendor incident
Regional vendor outage ללא multi-region fallback
Rate-limit hit כי usage pattern שונה

עדכון Prevention

Gateway-based multi-vendor עם automatic failover. Self-hosted fallback ל-compliance-critical paths. Graceful degradation feature flags.

INC-07

Latency degradation

סימני זיהוי

p95 מעל SLA למשך >15 דק'
Queue depth גדל
Customer satisfaction metric drop

Triage מיידי

הוסיפו caching layer ל-hot prompts
Shed traffic לא-קריטי
בדקו vendor status; switch region אם רלוונטי

תבנית תקשורת

“אנו רואים זמני תגובה גבוהים יותר ב-AI features. Mitigations פעילים; latency רגיל מצופה תוך Xh.”

דפוסי Root Cause

Vendor regional latency
Context window גדל בגלל corpus growth
Reranker הוא ה-bottleneck
Cold cache אחרי deploy

עדכון Prevention

Latency SLO alarms. Hot-prompt cache. Streaming responses היכן שאפשר. Reranker capacity planning.

INC-08

Regression איכות אחרי שינוי prompt

סימני זיהוי

Eval score drop אחרי deploy
Customer feedback shift
Internal QA flag

Triage מיידי

Rollback ל-prompt לגרסה קודמת
A/B compare מול הגרסה ש-rolled back
סמנו failing samples לניתוח

תבנית תקשורת

“Internal: regression איכות זוהתה על feature X אחרי שינוי prompt ב-Y. Reverted; חוקרים root cause.”

דפוסי Root Cause

שינוי prompt נבדק רק על happy path
Edge cases נשברו
Negative-space examples לא ב-eval

עדכון Prevention

Golden-set eval חובה לפני prompt deploy. Negative-space examples ב-eval. Canary deployment ל-prompts.

INC-09

Tool-use loop / runaway agent

סימני זיהוי

Spike ב-tool call count per session
Long-running session metric
Cost-per-session anomaly

Triage מיידי

Hard cap על tool calls per session
Kill sessions ארוכים מעל limit
השביתו tool ספציפי אם הוא driver של ה-loop

תבנית תקשורת

“Internal: agent loop זוהה. Per-session call cap הופחת. חקירה בעיצומה.”

דפוסי Root Cause

Tool מחזיר תוצאה דו-משמעית שמובילה ל-retry
Plan-and-execute prompt מעודד repetition
אין completion criterion ב-prompt

עדכון Prevention

Per-session call budget. Completion criterion ב-system prompt. Tool result validation לפני next step.

INC-10

Compliance audit finding על AI

סימני זיהוי

External או internal audit finding
Regulator inquiry
Customer compliance review failure

Triage מיידי

תעדו scope ו-timeline של finding
הפעילו compliance ו-legal
Suspend feature ספציפית אם מומלץ

תבנית תקשורת

“Internal: audit finding דורש response עד תאריך D. מעורבים legal ו-compliance. תקשורת ללקוח ממתינה ל-legal review.”

דפוסי Root Cause

Audit log חסר
Evidence לא מספיק ל-compliance baseline control
Configuration drift מאז audit קודם

עדכון Prevention

סקירת audit log retention. Map כל control ב-12-control baseline ל-evidence. Quarterly pre-audit מתוזמן.

INC-11

Embedding corpus poisoning

סימני זיהוי

Cluster תגובות אנומלי מ-retrieval pattern ספציפי
מסמכים יוצאי דופן מופיעים גבוה ב-retrieval
דיווח חיצוני על malicious upload

Triage מיידי

השביתו user-content ingestion זמנית
Re-embed את ה-corpus ממקור מהימן
Quarantine מסמכים חשודים

תבנית תקשורת

“Internal P0: corpus poisoning פוטנציאלי. User-content ingestion מושבת. Re-indexing בעיצומו.”

דפוסי Root Cause

Unauthenticated user-content ingestion
Content moderation לא מספיק
Adversarial uploader מנצל public path

עדכון Prevention

אימות כל ingestion path. Content classifier ב-ingestion. Provenance tracking על כל chunk.

INC-12

Token / credential leak ב-prompt

סימני זיהוי

Credential מופיע ב-vendor logs
Customer credential rotation alert
Secrets scanner alert

Triage מיידי

Rotate credential מיידית
Audit access logs ל-misuse בזמן exposure window
השביתו integration שהדליפה

תבנית תקשורת

“Internal P0: credential exposure. Rotation הושלמה; access logs בסקירה ל-misuse window של Xh.”

דפוסי Root Cause

Credential נכלל ב-retrieved chunk
משתמש הדביק secret ב-chat שתועד
Debug logging חשף secret

עדכון Prevention

Secret pre-filter על כל user input ו-retrieved chunk. Vendor log redaction policy. אל תרשמו raw prompts ב-production.

INC-13

Data stale מ-RAG אחרי שינוי מקור

סימני זיהוי

Customer report של מידע לא-עדכני
Reindex job failure log
Cache invalidation alarm

Triage מיידי

Force reindex של מקור מושפע
השביתו cache לנושא מושפע
וודאו freshness ב-spot-check

תבנית תקשורת

“Customer-facing: זיהינו שחלק מהתגובות התבססו על data ישן. Index רוענן; אנא נסו שוב.”

דפוסי Root Cause

Reindex job נכשל ולא הותרע
Cache TTL ארוך מדי ל-source change cadence
Webhook ממקור נושר

עדכון Prevention

Reindex job health alarm. Source-change webhook retries עם DLQ. Per-source freshness SLO.

INC-14

חציית גבול רגולטורי (data residency)

סימני זיהוי

Vendor processing log שמראה cross-border data flow
Compliance review finding
Customer escalation

Triage מיידי

נתבו traffic מושפע ל-in-region endpoint
הפעילו legal
תעדו scope של cross-border processing

תבנית תקשורת

“Internal P0: data-residency boundary אולי נחצה. Routing תוקן. Legal מעריך notification obligations.”

דפוסי Root Cause

Vendor request נותב ל-region לא צפוי
Self-hosted fallback ב-jurisdiction אחר
DPA לא מכסה את ה-routing

עדכון Prevention

Vendor SLA כולל region pinning. Self-hosted fallback in-region. Map כל data flow מול DPA matrix.

פעולות Post-Incident נפוצות

פעולה	אחראי	תוצר
Postmortem תוך 5 ימי עסקים	Incident Commander	מסמך עם timeline, impact, root cause, action items, אחראים, תאריכים.
עדכון AI Failure Modes Catalog אם דפוס חדש עלה	AI Platform Lead	PR ל-failure-modes register פנימי.
עדכון governance baseline אם control נכשל	AI Risk Lead	Baseline מעודכן + הערכת מערכות אחרות מול אותו control.
עדכון vendor scorecard אם vendor-related	Procurement	התאמת score + next-review date מוקדם יותר.

על ה-playbook. נבנה מ-150+ engagement'ים של Slavin AI & SLAtech 2022–2026 שבהם מערכות AI בייצור חוו תקריות שדרשו תגובה מתועדת. כל קלאס תקרית נצפה בלפחות שני engagement'ים בלקוחות עצמאיים לפני הכללה. שלבי ה-playbook משקפים מה נעשה בפועל; הרשומות מתועדות כדפוסים, לא אירועים ספציפיים.

רישיון. Creative Commons Attribution 4.0 International (CC-BY-4.0). שימוש חוזר עם קרדיט ל-“Slavin AI” וקישור ל-slavin.ai/Checklist/he/AI-Incident-Response.

גרסה machine-readable. אותו playbook כ-JSON: slavin.ai/data/ai-incident-response-playbook.json.

קטלוג companion. Failure modes נתפסים לפני השקה: צ'קליסט ביקורת לפני production.

קראו את עמוד העמדה ←

Slavin AI הוא מותג של SLAtech LTD. slatech.co.il · צור קשר