RAG vs Fine-tuning em 2026: qual escolher pra seu agente de domínio
"Vou fine-tunar o GPT" virou frase de pitch sem técnica por trás. Aqui vai a decisão baseada em custo, qualidade e manutenção, em 2026, com contexto longo barato e modelos abertos competitivos.
baseO que cada coisa faz, sem mitologia
RAG (Retrieval-Augmented Generation)
Você guarda seu conhecimento em uma base (vetorial, SQL, fulltext). Na hora da pergunta, o sistema busca os pedaços relevantes e injeta no prompt do LLM. O modelo continua sendo o flagship genérico, só recebe seu contexto na hora.
Analogia: você dá ao modelo um livro de consulta antes de cada pergunta.
Fine-tuning
Você pega o modelo base e continua o treinamento com seus exemplos. O modelo internaliza padrão, estilo, vocabulário do seu domínio. Resultado é um modelo novo (seu) que se comporta diferente do original.
Analogia: você manda o estudante pra mestrado especializado por 2 anos.
comparaçãoRAG vs Fine-tuning em 6 dimensões
1. Atualização de conhecimento
RAG vence: você atualiza o documento na base e a próxima query já usa. Sem retreino.
Fine-tuning perde: cada update de conhecimento exige re-treinar o modelo. Caro e lento.
2. Custo de setup
RAG vence: pipeline de chunking + embedding + DB vetorial. Dá pra ter MVP em 1 semana.
Fine-tuning perde: dataset curado, GPU rodando horas/dias, validação, deploy de modelo próprio. Semanas.
3. Custo por query (runtime)
RAG perde leve: prompt mais comprido (contexto injetado) = mais tokens pagos.
Fine-tuning vence: prompt curto, modelo internalizou conhecimento. Em volume muito alto, vira economia.
4. Latência
RAG perde leve: busca vetorial adiciona ~50-200ms.
Fine-tuning vence: chamada direta, sem retrieval no caminho.
5. Auditabilidade
RAG vence claro: você sabe exatamente quais documentos foram usados na resposta. Cita fonte.
Fine-tuning perde: caixa preta. Conhecimento embutido nos pesos.
6. Risco de alucinação
RAG vence: você pode forçar "responda só com o que está nos documentos". Reduz alucinação medida.
Fine-tuning perde leve: modelo continua tendendo a completar com plausibilidade, só agora plausível no seu estilo.
quando ragCasos típicos onde RAG basta
- Chatbot de FAQ corporativa: documentos mudam, conhecimento atualiza, auditoria importa. RAG é a resposta.
- Agente de suporte de produto: changelog atualiza toda semana. RAG.
- Assistente jurídico de consulta: cita artigo, precedente. RAG com link de fonte.
- Vendas com catálogo: produto entra/sai, preço muda. RAG.
- Internal knowledge search: documentos do Confluence/Notion/Drive. RAG quase obrigatório.
quando fine-tuningCasos onde fine-tuning faz sentido
- Estilo / voz consistente: você quer o modelo escrever como sua marca escreve, não só "com tom amigável". Fine-tuning em datasets de copy.
- Formato estruturado raro: output em JSON com schema complexo que o flagship não respeita 100%. Fine-tuning amarra padrão.
- Domínio com vocabulário pesado: jargão técnico (medicina, biotech, jurídico raro) onde RAG sozinho não calibra o modelo direito.
- Latência crítica + volume alto: prompt curto é diferença mensurável. Fine-tuning paga.
- Compliance que proíbe contexto longo no prompt: dado sensível não pode aparecer no prompt. Fine-tunar em ambiente isolado.
e os doisQuando combinar
RAG + Fine-tuning juntos faz sentido em projetos maduros:
- Fine-tunar pra estilo e tool-use, modelo aprende como falar e quais ferramentas chamar.
- RAG pra conhecimento, base atualiza sozinha, modelo continua respondendo bem.
É o setup que vemos em produtos enterprise grandes (ChatGPT Enterprise, Glean, Mendable). Pra middle market, raramente vale o custo de manter as duas estradas.
decisãoComo decidir em 5 perguntas
- Seu conhecimento muda em quanto tempo? Diário/semanal → RAG. Anual → fine-tuning é viável.
- Você precisa citar fonte na resposta? Sim → RAG. Não → ambos servem.
- Seu volume é gigante? Acima de 100M tokens/mês, custo de runtime importa muito. Fine-tuning começa a valer.
- Você tem alguém pra treinar modelo de novo a cada update? Não → RAG. Sim → fine-tuning é viável.
- O ganho de qualidade percebido pelo usuário com fine-tuning seria notável? Em A/B test honesto, na maioria dos casos, não. RAG bem feito chega muito perto.
o que mudouRAG em 2026 não é RAG de 2023
Quem testou RAG em 2023 e achou ruim deveria testar de novo. As práticas atuais entregam qualidade dramaticamente melhor:
- Hybrid search: combina vetor (semântica) + BM25 (palavra-chave). Mata caso onde vetor falha.
- Re-ranking: modelo dedicado reordena top 20 → top 5 que vão pro prompt.
- Query rewriting: LLM reescreve a pergunta antes de buscar (sinônimos, contexto da conversa).
- Chunking semântico: parador de chunk por significado, não por número de caracteres.
- Contextual retrieval (técnica Anthropic): prepend resumo ao chunk antes de embeddar. Ganho médio: ~67% redução em retrieval miss.
Vai botar IA no seu produto?
A gente desenha a arquitetura RAG / fine-tune / hybrid em 1 semana, com POC rodando no seu dado.
Falar com engenharia