← Voltar pro Blog IA · Arquitetura · Decisão técnica

RAG vs Fine-tuning em 2026: qual escolher pra seu agente de domínio

"Vou fine-tunar o GPT" virou frase de pitch sem técnica por trás. Aqui vai a decisão baseada em custo, qualidade e manutenção, em 2026, com contexto longo barato e modelos abertos competitivos.

12 min de leitura· Publicado em 10 Maio 2026· Por Editorial Otom

baseO que cada coisa faz, sem mitologia

RAG (Retrieval-Augmented Generation)

Você guarda seu conhecimento em uma base (vetorial, SQL, fulltext). Na hora da pergunta, o sistema busca os pedaços relevantes e injeta no prompt do LLM. O modelo continua sendo o flagship genérico, só recebe seu contexto na hora.

Analogia: você dá ao modelo um livro de consulta antes de cada pergunta.

Fine-tuning

Você pega o modelo base e continua o treinamento com seus exemplos. O modelo internaliza padrão, estilo, vocabulário do seu domínio. Resultado é um modelo novo (seu) que se comporta diferente do original.

Analogia: você manda o estudante pra mestrado especializado por 2 anos.

comparaçãoRAG vs Fine-tuning em 6 dimensões

Dimensão
RAG
Fine-tuning

1. Atualização de conhecimento

RAG vence: você atualiza o documento na base e a próxima query já usa. Sem retreino.
Fine-tuning perde: cada update de conhecimento exige re-treinar o modelo. Caro e lento.

2. Custo de setup

RAG vence: pipeline de chunking + embedding + DB vetorial. Dá pra ter MVP em 1 semana.
Fine-tuning perde: dataset curado, GPU rodando horas/dias, validação, deploy de modelo próprio. Semanas.

3. Custo por query (runtime)

RAG perde leve: prompt mais comprido (contexto injetado) = mais tokens pagos.
Fine-tuning vence: prompt curto, modelo internalizou conhecimento. Em volume muito alto, vira economia.

4. Latência

RAG perde leve: busca vetorial adiciona ~50-200ms.
Fine-tuning vence: chamada direta, sem retrieval no caminho.

5. Auditabilidade

RAG vence claro: você sabe exatamente quais documentos foram usados na resposta. Cita fonte.
Fine-tuning perde: caixa preta. Conhecimento embutido nos pesos.

6. Risco de alucinação

RAG vence: você pode forçar "responda só com o que está nos documentos". Reduz alucinação medida.
Fine-tuning perde leve: modelo continua tendendo a completar com plausibilidade, só agora plausível no seu estilo.

Conclusão neutra RAG vence em 5 dos 6 critérios pra maioria dos casos de uso típicos. Fine-tuning ganha em runtime de altíssimo volume e quando o ganho de qualidade percebida justifica a dor operacional.

quando ragCasos típicos onde RAG basta

  • Chatbot de FAQ corporativa: documentos mudam, conhecimento atualiza, auditoria importa. RAG é a resposta.
  • Agente de suporte de produto: changelog atualiza toda semana. RAG.
  • Assistente jurídico de consulta: cita artigo, precedente. RAG com link de fonte.
  • Vendas com catálogo: produto entra/sai, preço muda. RAG.
  • Internal knowledge search: documentos do Confluence/Notion/Drive. RAG quase obrigatório.

quando fine-tuningCasos onde fine-tuning faz sentido

  • Estilo / voz consistente: você quer o modelo escrever como sua marca escreve, não só "com tom amigável". Fine-tuning em datasets de copy.
  • Formato estruturado raro: output em JSON com schema complexo que o flagship não respeita 100%. Fine-tuning amarra padrão.
  • Domínio com vocabulário pesado: jargão técnico (medicina, biotech, jurídico raro) onde RAG sozinho não calibra o modelo direito.
  • Latência crítica + volume alto: prompt curto é diferença mensurável. Fine-tuning paga.
  • Compliance que proíbe contexto longo no prompt: dado sensível não pode aparecer no prompt. Fine-tunar em ambiente isolado.

e os doisQuando combinar

RAG + Fine-tuning juntos faz sentido em projetos maduros:

  • Fine-tunar pra estilo e tool-use, modelo aprende como falar e quais ferramentas chamar.
  • RAG pra conhecimento, base atualiza sozinha, modelo continua respondendo bem.

É o setup que vemos em produtos enterprise grandes (ChatGPT Enterprise, Glean, Mendable). Pra middle market, raramente vale o custo de manter as duas estradas.

decisãoComo decidir em 5 perguntas

  1. Seu conhecimento muda em quanto tempo? Diário/semanal → RAG. Anual → fine-tuning é viável.
  2. Você precisa citar fonte na resposta? Sim → RAG. Não → ambos servem.
  3. Seu volume é gigante? Acima de 100M tokens/mês, custo de runtime importa muito. Fine-tuning começa a valer.
  4. Você tem alguém pra treinar modelo de novo a cada update? Não → RAG. Sim → fine-tuning é viável.
  5. O ganho de qualidade percebido pelo usuário com fine-tuning seria notável? Em A/B test honesto, na maioria dos casos, não. RAG bem feito chega muito perto.
Regra Otom Em 2026, com contexto longo barato e RAG hoje sofisticado (re-ranking, hybrid search, query expansion), fine-tuning virou exceção. 90% dos projetos resolvem com RAG. Os outros 10% se beneficiam de fine-tuning leve em cima de modelo aberto.

o que mudouRAG em 2026 não é RAG de 2023

Quem testou RAG em 2023 e achou ruim deveria testar de novo. As práticas atuais entregam qualidade dramaticamente melhor:

  • Hybrid search: combina vetor (semântica) + BM25 (palavra-chave). Mata caso onde vetor falha.
  • Re-ranking: modelo dedicado reordena top 20 → top 5 que vão pro prompt.
  • Query rewriting: LLM reescreve a pergunta antes de buscar (sinônimos, contexto da conversa).
  • Chunking semântico: parador de chunk por significado, não por número de caracteres.
  • Contextual retrieval (técnica Anthropic): prepend resumo ao chunk antes de embeddar. Ganho médio: ~67% redução em retrieval miss.
Fontes: paper "Contextual Retrieval" (Anthropic, 2024) · documentação técnica Pinecone, Weaviate, Qdrant 2025-2026 · benchmark BEIR atualização Q1 2026 · análise Otom Sales sobre 6 produtos com RAG em produção.

Vai botar IA no seu produto?

A gente desenha a arquitetura RAG / fine-tune / hybrid em 1 semana, com POC rodando no seu dado.

Falar com engenharia