📚
1. Свежесть знаний
Стабильный corpus, редкие обновления (1–2): fine-tune. Ежедневные/еженедельные обновления, регулируемый домен (4–5): RAG.
🎯
2. Структура вывода
Специфический формат/тон/persona (1–2): fine-tune. Free-form ответы grounded в источнике (4–5): RAG.
🔍
3. Требование цитирования
Нет или эстетическое (1–2): fine-tune. Жёсткое регуляторное требование (мед, юр, фин) (4–5): RAG.
💰
4. Объём запросов
10M+ запросов/год, узкий домен (1–2): fine-tune амортизируется. Меньше 1M или широкий домен (4–5): RAG.
⚡
5. Latency budget
Нужно sub-300ms p95 (1–2): fine-tune (один LLM call). 500–2000ms приемлемо (4–5): RAG.
🔐
6. Чувствительность данных
Публичные знания (1–2): оба работают. Конфиденциальный corpus, не покидающий VPC (4–5): RAG с self-hosted embeddings.
📊
Decision bands
Сумма 6–14: Fine-tune (или prompt сначала).
Сумма 15–22: ГИБРИД.
Сумма 23–30: RAG only.