AI Architecture

RAG מול Fine-tuning — מתי להשתמש בכל אחד

6 ממדים, מדורגים 1–5, סכומים לפס החלטה. בנוסף — התבנית ההיברידית שזוכה ברוב מקרי השימוש הארגוניים, ונקודת ההיפוך בעלות שכדאי להכיר לפני תחילה.

6 ממדים, מדורגים 1–5

דרגו כל אחד בסולם 1–5 כאשר 1 נוטה ל-fine-tuning ו-5 נוטה ל-RAG. סכמו את הציונים וקראו את פס ההחלטה למטה.

📚

1. טריות ידע

Corpus יציב, עדכונים נדירים (1–2): fine-tune. עדכונים יומיים/שבועיים, תחום מוסדר (4–5): RAG.

🎯

2. מבנה פלט

פורמט/טון/persona ספציפי (1–2): fine-tune. תשובות free-form מגרון במקור (4–5): RAG.

🔍

3. דרישת ציטטה

אין או אסתטית בלבד (1–2): fine-tune. דרישה רגולטורית קשה (רפואי, משפטי, פיננסי) (4–5): RAG.

💰

4. נפח שאילתות

10M+ שאילתות/שנה, תחום צר (1–2): fine-tune משתלם. תחת 1M או תחום רחב (4–5): RAG.

5. תקציב Latency

נדרש sub-300ms p95 (1–2): fine-tune (קריאת LLM אחת). 500–2000ms מקובל (4–5): RAG.

🔐

6. רגישות נתונים

ידע ציבורי (1–2): שניהם עובדים. Corpus סודי שלא יוצא מ-VPC (4–5): RAG עם self-hosted embeddings.

📊

פסי החלטה

סכום 6–14: Fine-tune (או prompt קודם).
סכום 15–22: היברידי.
סכום 23–30: RAG בלבד.

למה ~60% מהמקרים הארגוניים נופלים כאן

רוב מקרי השימוש הארגוניים ב-LLM כוללים גם דרישת סגנון יציבה וגם בסיס עובדות משתנה. תגובות תמיכת לקוחות צריכות להישמע כמו המותג ולצטט את המדיניות הנוכחית. תיעוד קליני צריך לעקוב אחר תבנית המוסד ולהתייחס להנחיה האחרונה.

התבנית: fine-tune מודל בסיס (לרוב LoRA, לא fine-tune מלא) על ~1–5K דוגמאות אוצרות לסגנון ומבנה; הוסף RAG מעל corpus המסמכים החי. המודל המכוון יודע איך לכתוב; RAG אומר לו על מה.

טעויות נפוצות

⚠️

Fine-tuning ללימוד עובדות

Fine-tuning משנה התפלגויות הסתברות; הוא לא אוחסן עובדות באמינות. fine-tune שאמור לדעת קטלוג מוצרים = מפעל הזיות.

⚠️

דילוג על baseline של prompt

30–40% מהמקרים בהם הצוותים קפצו ישר ל-RAG או fine-tuning יכלו להיפתר ע"י prompt טוב על מודל בסיס חזק. תמיד הוכח את ה-baseline קודם.

⚠️

RAG ללא איכות retrieval

RAG יורש את איכות ה-retrieval. אם embeddings, chunking או reranking גרועים, המערכת גרועה יותר מ-prompt-only.

⚠️

Re-fine-tuning כל עדכון

אם corpus משתנה שבועית, fine-tuning זה הכלי הלא נכון. השתמש ב-RAG.

מה ליישם מחר

דרגו 6 ממדים. סכמו. קראו פס. הוכיחו prompt-only baseline קודם — תדלגו על שניהם ב-1 מתוך 3 מקרים. כש-baseline נכשל, היברידי (RAG + LoRA) הוא ברירת המחדל. Pure fine-tune רק לנפח גבוה, corpus יציב, latency-critical. Pure RAG רק כש-citations לא ניתנות להתעלמות.