Ponto de entrada

Qual é o seu perfil?

Este módulo tem três trilhas independentes. Você pode ler tudo em sequência ou pular direto para o seu nível.

Base Comum — Todos os perfis
História

A história da Inteligência Artificial

A IA não surgiu do nada em 2022. É o resultado de 70 anos de pesquisa, com ciclos de euforia, inverno e renascimento. Entender essa história explica por que estamos onde estamos — e por que desta vez é diferente.

1950s
1960s

Era Simbólica — "Se isso, então aquilo"

Primeiros programas de IA baseados em regras lógicas explícitas escritas por humanos. Alan Turing propõe o "Teste de Turing". Sistemas de xadrez e provadores de teoremas. Limitação fatal: o mundo real tem regras demais para escrever manualmente.

1970s
1980s

Sistemas Especialistas + 1º Inverno da IA

Sistemas como MYCIN (diagnóstico médico) e XCON (configuração de computadores) mostram valor real. Mas são frágeis, caros de manter e não generalizam. Investimentos secam. Primeiro "inverno da IA": expectativas não cumpridas, financiamento colapsa.

1990s
2000s

Machine Learning — Aprender com dados

Mudança de paradigma: em vez de escrever regras, os algoritmos aprendem padrões a partir de exemplos. SVMs, árvores de decisão, regressão logística. Deep Blue vence Kasparov (1997). Spam filters, sistemas de recomendação. Ainda não "inteligência" — é reconhecimento de padrões estatístico.

2010s

Deep Learning — Redes Neurais Profundas

GPUs baratas + grandes datasets + arquiteturas de redes neurais profundas. AlexNet (2012) revoluciona visão computacional. Reconhecimento de fala melhora dramaticamente. AlphaGo vence Go (2016). Mas ainda: cada modelo faz uma coisa só.

2017
2020

Transformers — A arquitetura que mudou tudo

"Attention is All You Need" (Google, 2017): nova arquitetura que processa texto em paralelo com mecanismo de atenção. GPT-1 (OpenAI, 2018), BERT (Google, 2018). A fundação de tudo que veio depois. Modelos que entendem contexto de forma profunda.

2022
2023

Era dos LLMs — ChatGPT e a virada de massa

GPT-3 (2020) prova que escala muda qualidade qualitativamente. ChatGPT (nov/2022): 100 milhões de usuários em 60 dias — adoção mais rápida da história. Claude 1 (Anthropic, 2023), Gemini (Google). IA generativa vira conversa mainstream.

2024
2026

Era dos Agentes — IA que age no mundo

Modelos deixam de só responder e passam a executar tarefas. Computer Use, Claude Code, OpenAI Operator, Google Mariner. Raciocínio explícito (Extended Thinking, o1). Multi-agente em produção. Benchmarks saturando — corrida se desloca para custo, confiabilidade e integração.

Base Comum
Taxonomia

Tipos de IA — o mapa completo

Existe muita confusão sobre o que é o quê. Machine Learning não é a mesma coisa que IA Generativa, que não é a mesma coisa que Deep Learning. Este mapa desfaz as sobreposições de uma vez por todas.

Hierarquia: do mais amplo ao mais específico
🧠 Inteligência Artificial (IA)
campo completo — 1950s até hoje
↓ subconjunto
📊 Machine Learning (ML)
aprender com dados — 1990s+
·
⚙️ Sistemas Especialistas
regras explícitas — 1970s-80s
·
🤖 Robótica
sistemas físicos
↓ subconjunto de ML
🧬 Deep Learning (DL)
redes neurais profundas — 2010s+
↓ subconjunto de DL
✨ IA Generativa
gera conteúdo novo — 2020s
🗣️ LLMs
modelos de linguagem — 2018+
·
🎨 Modelos de Imagem
Midjourney, DALL-E, Flux
·
🎵 Áudio / Vídeo
ElevenLabs, Runway, Veo

Os 5 tipos de IA por função

Generativa

Cria conteúdo novo: texto, imagem, código, áudio, vídeo. Aprende padrões e gera variações. É o que está dominando o mercado agora.

Claude, ChatGPT, Gemini, Midjourney, ElevenLabs, Runway
🔮
Preditiva

Prevê valores futuros com base em dados históricos. Não gera — calcula uma estimativa. Existe há décadas nas empresas.

Previsão de demanda, risco de crédito, churn de clientes, previsão de falhas
🏷️
Discriminativa

Classifica e categoriza. "Este e-mail é spam ou não?" "Esta imagem tem um gato?" Distingue entre categorias existentes.

Filtro de spam, detecção de fraude, reconhecimento facial, diagnóstico por imagem
📊
Descritiva

Analisa e resume o que já aconteceu. Encontra padrões em dados históricos, identifica anomalias, agrupa similaridades.

Análise de sentimento, clustering de clientes, detecção de anomalias em logs
🎯
Prescritiva

Recomenda ações. "Dado o estado atual, o que você deveria fazer?" Combina predição com otimização.

Roteirização de entregas, otimização de preços, recomendação de tratamento médico
💡

Por que essa distinção importa na prática

Um sistema de IA pode usar múltiplos tipos ao mesmo tempo. Um assistente de RH pode usar IA generativa para redigir uma oferta, IA preditiva para estimar risco de churn do candidato e IA prescritiva para sugerir a faixa salarial ideal. Confundir os tipos leva a expectativas erradas e arquiteturas equivocadas.

Base Comum
Mecanismo

Como um LLM funciona de verdade

Um LLM não "pensa" nem "entende" como um humano. Ele é um mecanismo extremamente sofisticado de completar texto de forma probabilística. Entender isso explica por que ele às vezes é brilhante, às vezes erra com confiança.

📚

1. Treinamento em escala

O modelo é treinado em trilhões de palavras da internet, livros, código, artigos científicos. Aprende padrões estatísticos: quais palavras tendem a vir depois de quais outras, em quais contextos.

🔢

2. Texto vira números

Todo texto é quebrado em "tokens" (fragmentos de texto) e convertido em vetores numéricos. O modelo opera em matemática de altíssima dimensão — palavras próximas semanticamente ficam próximas no espaço matemático.

🎯

3. Predição token a token

Para gerar uma resposta, o modelo prevê o próximo token mais provável, depois o próximo, depois o próximo — em sequência. Cada previsão considera todos os tokens anteriores via mecanismo de atenção.

🎲

A analogia do autocomplete turbinado

O autocomplete do celular sugere a próxima palavra baseado em padrões simples. Um LLM faz a mesma coisa, mas com bilhões de parâmetros treinados em toda a produção escrita da humanidade — o que resulta em algo que parece compreensão, mas é fundamentalmente predição de padrões extremamente sofisticada. Daí vêm tanto o poder quanto as alucinações.

O que diferencia um LLM de um modelo de ML tradicional

DimensãoML TradicionalLLM
O que faz Uma tarefa bem definida (classificar, prever um número) Qualquer tarefa que possa ser descrita em linguagem natural
Como é treinado Dados rotulados para a tarefa específica Texto em escala massiva de forma não supervisionada
Como é usado API que recebe dados estruturados e retorna número/classe Linguagem natural como entrada e saída
Generalização Não generaliza para fora do domínio de treino Generaliza para tarefas não vistas em treino (emergência)
Explicabilidade Modelos mais simples são explicáveis Caixa preta — pesquisa de interpretabilidade em andamento
Exemplo Modelo de churn, detector de fraude, recomendação Claude, GPT-5, Gemini, Llama 4

Por que LLMs alucinam — e por que isso não vai sumir

🎲 É probabilístico por design

O modelo gera o token mais provável, não o mais correto. Se o padrão mais comum no treinamento para uma pergunta específica era uma informação errada, o modelo vai reproduzi-la com confiança. Não há uma etapa de "verificar se é verdade".

📦 Não tem acesso a fatos externos

Um LLM puro não "pesquisa" — ele recupera padrões do treinamento. Se a informação correta não estava no treinamento, ou era rara, o modelo vai preencher a lacuna com o que parece mais plausível. Sistemas com RAG e ferramentas mitigam isso.

Base Comum
Mercado

Os grandes players em 2026

O mercado de IA fundacional é um oligopólio técnico com 4–5 labs dominando os modelos de ponta, cercados de um ecossistema de ferramentas e aplicações especializadas.

🔵 Anthropic

Fundada por ex-OpenAI, focada em safety. Família Claude 4. Diferencial: Constitutional AI, interpretabilidade, Extended Thinking. Forte em coding e análise técnica.

🟢 OpenAI

Criadores do ChatGPT. Família GPT-5, modelos de raciocínio (o1/o3). Maior base de usuários. Ecossistema mais amplo de plugins e integrações. Parceria estratégica com Microsoft.

🔴 Google DeepMind

Família Gemini. Maior janela de contexto do mercado (2M tokens). Integração profunda com Google Workspace. Lider em visão computacional e multimodalidade.

🟡 Meta AI

Llama 4 open-source — modelos poderosos que qualquer empresa pode hospedar. Estratégia de commoditizar a camada de modelo para vender infraestrutura. Comunidade massiva de desenvolvedores.

⚡ xAI (Elon Musk)

Grok — integrado ao X (Twitter). Acesso a dados em tempo real. Posicionamento como alternativa sem censura. Arena Elo competitivo com os top modelos do mercado.

🇨🇳 DeepSeek / Alibaba

Labs chineses com modelos open-source que rivalizam com os americanos a fração do custo. DeepSeek V3 e Qwen 3 são alternativas sérias — especialmente para volume e on-premise.

📊

O estado do mercado em abril 2026

Os 5 labs líderes no Arena Elo estão separados por apenas ~80 pontos — o menor gap da história. A batalha se deslocou de qualidade bruta para custo, latência, confiabilidade e integração. Nenhum modelo domina todas as dimensões: o modelo certo depende do caso de uso.

Nível 1 👤 Usuário — O que muda no meu trabalho e como usar bem Sem necessidade de conhecimento técnico prévio
N1 · Usuário
Impacto

O que muda no meu trabalho?

A IA não vai "substituir" a maioria das profissões — ela vai transformar como o trabalho é feito. Quem aprender a trabalhar com IA vai fazer em 1 hora o que antes levava 1 dia. Quem não aprender ficará para trás em produtividade.

🧮

Financeiro / Contabilidade

Conciliação assistida, análise de extratos, geração de relatórios, identificação de anomalias. O analista foca em interpretação e decisões — não em montar planilhas.

IAs indicadas: Claude (análise), ChatGPT (relatórios), Perplexity (pesquisa tributária)

⚖️

Jurídico / Compliance

Revisão de contratos, pesquisa de jurisprudência, resumo de documentos longos, verificação de conformidade. Advogado júnior produz como sênior. Sênior foca em estratégia.

IAs indicadas: Claude (contratos longos), Perplexity (jurisprudência), NotebookLM (análise de documentos)

👥

RH

Triagem de currículos, geração de JDs, onboarding automatizado, políticas em linguagem clara, análise de pesquisas de clima. Foco humano em cultura e pessoas.

IAs indicadas: Claude (redação e análise), Fathom (resumo de entrevistas), ChatGPT (triagem)

📦

Logística / Operação

Previsão de demanda, otimização de rotas, relatórios operacionais automatizados, análise de fornecedores. IA não move caixas — mas decide como mover de forma mais inteligente.

IAs indicadas: ChatGPT (análises), Claude (relatórios), Perplexity (pesquisa de mercado)

📣

Marketing / Vendas

Geração de conteúdo em escala, personalização de comunicação, análise de campanhas, scripts de vendas, criação de imagens para posts. Diferencial: estratégia e voz autoral.

IAs indicadas: Claude/ChatGPT (texto), Midjourney/Canva IA (imagens), Gamma (apresentações)

💻

TI / Desenvolvimento

Geração e revisão de código, documentação automática, debugging assistido, explicação de sistemas legados. Desenvolvedor com IA entrega 3–5× mais — mas precisa revisar o que a IA produz.

IAs indicadas: Claude Code, GitHub Copilot, Cursor (coding)

N1 · Usuário
Ferramentas

Ferramentas que você já pode usar hoje

O ecossistema de ferramentas de IA é enorme — e cresce toda semana. Mas a maioria das pessoas precisa de poucas ferramentas bem usadas, não de muitas usadas mal.

🤖 Assistentes Gerais

Para praticamente qualquer tarefa de texto, análise ou criação:

  • Claude (Anthropic) — análise profunda, documentos longos, seguir instruções complexas, raciocínio. Melhor para textos corporativos.
  • ChatGPT (OpenAI) — uso geral, ecossistema amplo, plugins e integrações
  • Gemini (Google) — integrado ao Google Workspace (Docs, Sheets, Gmail)
  • Grok (xAI) — integrado ao X/Twitter, acesso a dados em tempo real

🔍 Pesquisa e Conhecimento

Para buscar, sintetizar e manter-se atualizado:

  • Perplexity — pesquisa com fontes citadas, informações em tempo real
  • NotebookLM (Google) — upload de seus documentos e Q&A sobre eles
  • Claude Projects — base de conhecimento persistente por projeto

🎨 Criação Visual e Apresentações

Para gerar imagens, designs e slides:

  • Midjourney / Flux / Ideogram — imagens de alta qualidade por descrição
  • Canva com IA — design assistido com templates inteligentes
  • Gamma — apresentações geradas automaticamente a partir de texto
  • Adobe Firefly — edição de imagens com IA, licença comercial segura

🎵 Produtividade e Reuniões

Para automatizar tarefas do dia a dia:

  • Fathom / Fireflies — transcrição e resumo automático de reuniões
  • ElevenLabs — vozes sintéticas de alta qualidade em português
  • Synthesia — vídeos com apresentadores virtuais sem gravar
  • GitHub Copilot — coding assistido diretamente no editor de código
💡

Claude tem planos gratuito e pago — qual usar?

O plano gratuito do Claude já é poderoso para uso diário. O plano Pro (US$20/mês) libera acesso ao Opus (modelo mais avançado), mais mensagens, e Claude Projects — onde você cria uma base de conhecimento permanente para o assistente usar em todas as conversas. Para uso profissional intenso, o Pro se paga rapidamente.

N1 · Usuário
Uso efetivo

Como dar bons prompts — e por que isso muda tudo

A diferença entre um resultado medíocre e um excelente geralmente está em como você faz a pergunta. "Prompt engineering" é o nome técnico para isso — mas é basicamente comunicação clara com contexto suficiente.

❌ Prompt fraco

"Escreve um e-mail pro cliente"

Resultado: e-mail genérico, tom errado, sem contexto do cliente, tamanho aleatório, nenhuma personalização.

✅ Prompt efetivo

"Escreve um e-mail para um cliente da área jurídica que está avaliando nosso sistema de gestão de contratos. Ele demonstrou preocupação com segurança de dados na última reunião. Tom profissional mas acessível, máximo 150 palavras, destaque a conformidade com LGPD."

Os 4 elementos de um bom prompt

1
🎭 Papel / Contexto
"Você é um especialista em tributação brasileira" ou "Atue como um editor de textos corporativos". Definir o papel ajuda o modelo a calibrar o nível, o tom e o vocabulário da resposta.
2
📋 Tarefa clara e específica
"Resuma em 5 bullets" é melhor que "resuma". "Liste os riscos jurídicos" é melhor que "analise". Quanto mais específico o verbo e o escopo, mais útil o resultado.
3
🌍 Contexto relevante
Quem é o destinatário? Qual o objetivo? Que informações a IA precisa para fazer um bom trabalho? Quanto mais contexto útil você fornece, menos reescritas você precisa fazer.
4
📐 Formato esperado
Bullet points, tabela, texto corrido, lista numerada? Qual o tamanho? Em qual tom? Especificar o formato elimina metade das reescritas e poupa tempo.

Técnicas que fazem diferença imediata

🧠 Peça para pensar passo a passo

Para problemas complexos, adicione "pense passo a passo antes de responder" ou "explique seu raciocínio". Isso ativa o que os técnicos chamam de chain of thought — o modelo "raciocina" antes de concluir, e os resultados são significativamente melhores em análises e cálculos.

📝 Dê exemplos do que você quer

Se você tem um exemplo do estilo ou formato que quer, cole no prompt: "escreva no estilo deste parágrafo:" + exemplo. Mostrar é mais eficaz que descrever. Os técnicos chamam isso de few-shot prompting — e funciona muito bem para padronizar tom e formato.

🔄 Itere, não reescreva do zero

Se o resultado não ficou certo, não apague e comece de novo. Continue na mesma conversa: "Ficou bom, mas o tom está muito formal. Reescreva mais próximo de uma conversa profissional." O modelo tem todo o contexto anterior — use isso a seu favor.

⚠️

Cuidado com conversas muito longas — o efeito "lost in the middle"

Quando uma conversa fica muito longa, o modelo começa a "esquecer" o que foi dito no início — especialmente as instruções e contexto. Se você perceber que as respostas estão perdendo qualidade ou ignorando combinados anteriores, comece uma nova conversa e recapitule o contexto essencial. Isso não é bug — é uma característica de como os LLMs funcionam.

N1 · Usuário
Como a IA pensa

Como a IA "pensa" — o que você precisa saber para usar melhor

Você não precisa saber programar para entender como a IA funciona. Mas entender alguns conceitos básicos muda completamente a forma como você interage com ela — e evita frustrações.

🎲 A IA não "sabe" — ela prediz

Um LLM não consulta um banco de dados de fatos. Ele gera a resposta mais provável com base em padrões do treinamento. Por isso às vezes erra com confiança — o padrão mais provável não é sempre o correto. Trate a IA como um especialista brilhante que às vezes confabula: verifique o que importa.

🌡️ Temperatura — criatividade vs. precisão

Os modelos têm um parâmetro de "temperatura" que controla o quanto a resposta é criativa (alta temperatura) ou precisa e consistente (baixa temperatura). Para textos criativos, temperatura alta é melhor. Para análises jurídicas ou fiscais, você quer temperatura baixa — respostas mais conservadoras e consistentes.

📅 A IA tem uma data de corte

O modelo foi treinado até uma data específica. Ele não sabe o que aconteceu depois disso. Para informações recentes (mudanças de legislação, notícias, cotações), use ferramentas com busca em tempo real como Perplexity ou Claude com web search ativado — não confie na memória do modelo para isso.

🧠 Cada conversa começa do zero

O modelo não lembra de você entre conversas diferentes. Tudo que ele "sabe" sobre você está na conversa atual. Por isso Claude Projects é poderoso: você define um contexto permanente (quem você é, como trabalha, preferências) que é injetado em todas as conversas daquele projeto.

🎯

A "zona morta" do contexto

Imagine que você entrega um relatório de 100 páginas para um assistente e pede para ele responder uma pergunta sobre a página 50. Ele vai ter dificuldade em prestar atenção nessa parte do meio — tende a focar mais no início e no fim do documento. Isso acontece com LLMs também: informações no meio de textos muito longos são menos lembradas. Dica prática: coloque as informações mais importantes no início ou no final do que você compartilha.

N1 · Usuário
Limites

O que a IA não faz bem — limites reais

Usar a IA bem inclui saber quando não usar. O entusiasmo inicial leva muita gente a confiar em resultados que não deveriam ser confiados — com consequências reais.

📅 Informações recentes e em tempo real

LLMs têm data de corte de treinamento. Não sabem o que aconteceu ontem. Para informações sensíveis ao tempo (mudanças de alíquota, nova legislação, cotações), use Perplexity ou ative web search no Claude. Verifique sempre a data dos dados usados.

🔢 Cálculos precisos e complexos

LLMs são fracos em matemática com muitas etapas — especialmente com números grandes. Para cálculos críticos (folha de pagamento, tributos, projeções financeiras), peça ao modelo para mostrar o raciocínio passo a passo e valide independentemente. Use Excel para cálculos, IA para análise.

📚 Dados específicos da sua empresa

A IA não conhece seu ERP, seus contratos, seu histórico de clientes, suas políticas internas. Sem esse contexto, as respostas são genéricas. Solução: cole as informações relevantes no prompt, use NotebookLM com seus documentos, ou um sistema com RAG configurado.

⚖️ Decisões que exigem responsabilidade

IA não pode ser responsabilizada. Em decisões de alto impacto — demissão, diagnóstico médico, aprovação de crédito, parecer jurídico oficial — a IA pode ser ferramenta de suporte, mas a decisão final e a responsabilidade precisam ser de um humano.

⚠️

A regra de ouro

Trate a IA como um estagiário brilhante: produtivo, criativo, cheio de energia — mas que precisa de supervisão em tarefas críticas. Você assina o trabalho, você é responsável pelo resultado. Use IA para acelerar e ampliar sua capacidade, não para terceirizar sua responsabilidade.

N1 · Usuário
IA Agêntica

IA Agêntica: quando a IA passa a fazer, não só responder

Até 2023, a IA respondia perguntas. A partir de 2024, ela começou a executar tarefas — navegar na web, operar sistemas, escrever e rodar código, enviar e-mails. Isso é IA agêntica: o modelo age no mundo real em seu nome.

🤖 Chatbot (antes)

Você pergunta, ele responde.

"Como faço para reconciliar as contas do mês?"
→ Explica o processo. O trabalho ainda é todo seu.

🚀 Agente (agora)

Você dá o objetivo, ele executa.

"Reconcilie as contas de março e me mande um relatório com as divergências."
→ Agente acessa o sistema, compara os dados, identifica diferenças, gera o relatório e envia. Você revisa o resultado.

Agentes que já existem e você pode usar em 2026

💻

Claude Code — agente de desenvolvimento

Escreve código, corrige bugs, refatora sistemas, roda testes, documenta. Um desenvolvedor com Claude Code entrega 3–5× mais do que sem ele. Acessa o repositório de código, entende o contexto do projeto e faz alterações reais — não só sugere.

🤝

Claude Cowork — agente de desktop

Ferramenta da Anthropic que opera seu computador visualmente — abre programas, preenche formulários, copia e cola entre sistemas, navega em sites. Especialmente útil para tarefas repetitivas em sistemas que não têm integração direta.

🌐

Agentes Web (Operator, Mariner)

OpenAI Operator e Google Mariner navegam na web como um humano — preenchem formulários em portais governamentais, fazem pesquisas, extraem dados de sites, compram produtos. Ainda em fase inicial mas já em uso real.

🖥️

Computer Use — IA que opera qualquer sistema

Claude consegue "ver" a tela do seu computador e operar qualquer software — mesmo sistemas legados sem API. Vê o que está na tela, clica nos botões certos, digita os dados. Útil para automatizar tarefas em sistemas antigos que não têm integração moderna.

💡

Agentes não trabalham sozinhos — e não devem

Os melhores sistemas agênticos de 2026 são semi-autônomos: o agente faz o trabalho pesado e traz para você apenas as exceções, decisões importantes e ações irreversíveis. Você não aprova cada clique — você aprova o plano e revisa os resultados. A automação inteligente mantém o humano no controle onde importa.

N1 · Usuário
Além do texto

IA para além do texto: imagem, vídeo, voz e apresentações

A IA generativa não é só para escrever. Em 2026, você pode gerar imagens profissionais, vídeos com apresentadores virtuais, vozes sintéticas realistas e apresentações completas — a partir de uma descrição em texto.

🎨

Imagens e Design

Midjourney — qualidade fotográfica e artística. Melhor para marketing e criação. Canva IA — design assistido com templates, mais fácil para iniciantes. Adobe Firefly — licença comercial segura, integrado ao Photoshop.

Caso de uso: criar imagens para posts, apresentações, materiais de vendas sem precisar de designer.

🎬

Vídeo e Apresentações

Synthesia — vídeos com apresentadores virtuais em português, sem câmera ou gravação. Gamma — apresentações profissionais geradas de um texto em segundos. Runway/Kling — geração de vídeo a partir de imagens ou descrições.

Caso de uso: treinamentos corporativos, onboarding em vídeo, pitches sem precisar gravar.

🎙️

Voz e Reuniões

ElevenLabs — vozes sintéticas em português com emoção, para narração de vídeos e e-learning. Fathom / Fireflies — gravam e resumem reuniões automaticamente, gerando ata com próximos passos. NotebookLM — cria podcasts de áudio dos seus documentos.

Caso de uso: eliminar atas manuais, criar conteúdo de áudio sem locutor.

N1 · Usuário
Na prática

IA nos negócios: exemplos reais com ferramentas indicadas

Nada substitui ver como funciona na prática. Aqui estão fluxos reais que equipes estão usando hoje — com qual ferramenta usar em cada etapa.

📄 Análise de contrato de fornecedor

  1. Cole o contrato no Claude e peça: "Liste as cláusulas de risco, multas e obrigações da nossa parte"
  2. Peça um resumo executivo para o gestor em menos de 200 palavras
  3. Pergunte: "Quais pontos devo negociar com base nas práticas do mercado?"
  4. Use Perplexity para verificar legislação citada no contrato

Tempo antes: 3–4h | Com IA: 30min de revisão

📊 Relatório gerencial mensal

  1. Exporte os dados do sistema em CSV ou cole os números no ChatGPT ou Claude
  2. Peça: "Identifique as 3 variações mais relevantes e explique em linguagem executiva"
  3. Solicite o relatório já formatado para apresentação
  4. Use Gamma para gerar a apresentação do relatório automaticamente

Tempo antes: 1 dia | Com IA: 2–3h

🎓 Treinamento corporativo

  1. Use Claude para criar o roteiro e o conteúdo do treinamento
  2. Use Gamma para transformar o conteúdo em apresentação visual
  3. Use Synthesia para gravar o treinamento com apresentador virtual em português
  4. Use NotebookLM para criar material de consulta e Q&A sobre o conteúdo

Tempo antes: 2 semanas | Com IA: 2 dias

📧 Campanha de prospecção

  1. Use Perplexity para pesquisar o perfil da empresa-alvo
  2. Use Claude para criar e-mail personalizado com base na pesquisa
  3. Use Midjourney para criar imagem de destaque do e-mail
  4. Peça ao Claude variações do e-mail para diferentes perfis de decisor (CEO, CFO, TI)

Tempo antes: 1h por e-mail | Com IA: 15min

N1 · Usuário
Contexto

Estado da IA em 2026: onde estamos na curva

A IA generativa está sendo adotada mais rápido que qualquer tecnologia anterior — mais rápido que a internet e os smartphones. Mas velocidade não é uniformidade. Nem todo setor, nem toda empresa, nem toda função está no mesmo ponto.

$581B
Investimento global em IA (2025)
Dobrou em 1 ano. Maior boom tecnológico da história.
~1Bi
Usuários ativos de ferramentas de IA
ChatGPT atingiu 100M em 60 dias — o mais rápido da história.
66%
Tarefas de PC feitas autonomamente
Era 12% em 2024. Humano faz 72%. Gap de só 6 pontos.
37%
Gap benchmark → produção real
IA ainda não é plug-and-play. Supervisão humana é crítica.

Os maiores modelos de IA em 2026

🔵 Claude (Anthropic)

Melhor para: análise profunda, documentos longos, raciocínio complexo, textos corporativos. Modelos: Opus (mais poderoso), Sonnet (equilíbrio), Haiku (rápido e barato).

🟢 ChatGPT (OpenAI)

Maior base de usuários. GPT-5 é poderoso e versátil. Melhor ecossistema de integrações e plugins. DALL-E para imagens integrado. Boa escolha para uso geral.

🔴 Gemini (Google)

Melhor integração com Google Workspace (Docs, Sheets, Gmail). Maior janela de contexto do mercado. Ideal para quem já usa o ecossistema Google no trabalho.

🎯

O que isso significa para você

Estamos no começo de uma transformação que vai durar décadas. As pessoas que aprenderem a trabalhar com IA agora têm vantagem real — não porque a IA é perfeita, mas porque entender seus limites é tão valioso quanto saber seus poderes. O momento de aprender é este.

Nível 2 🏗️ Arquiteto / Gestor — Como implementar IA de forma sustentável Área de negócio, produto, liderança técnica
N2 · Arquiteto
Fundação

Por que "API + front bonitinho" não é um produto

O erro mais comum de 2023–2024: achar que integrar uma API de LLM num front-end é suficiente para ter um produto. Não é. Um produto de IA tem camadas que precisam ser projetadas, não improvisadas.

❌ O que parece simples

  • Frontend chama API da Anthropic
  • Passa a mensagem do usuário
  • Exibe a resposta
  • "Pronto, temos um produto!"

✅ O que um produto precisa

  • Autenticação e controle de acesso
  • Gerenciamento de contexto e memória entre sessões
  • Conexão com dados da empresa (RAG)
  • Rate limiting e controle de custo
  • Monitoramento, logs e alertas
  • Tratamento de falhas e fallbacks
  • Avaliação contínua de qualidade
  • Segurança contra manipulação (prompt injection)
💡

A analogia do carro

Um motor potente não é um carro. Você precisa de chassi, freios, volante, painel, airbag, seguro. Um LLM poderoso não é um produto. Você precisa de toda a engenharia ao redor para que seja confiável, seguro, econômico e escalável.

N2 · Arquiteto
Arquitetura

As camadas de um sistema de IA que funciona

Um sistema de IA de produção tem camadas bem definidas. Entender o papel de cada uma permite fazer perguntas certas para o time técnico e tomar decisões de investimento informadas.

7
🖥️ Interface
O que o usuário vê e usa. Chat, formulário, integração com Slack/Teams, API para sistemas internos. Pode ser qualquer coisa — o LLM não "vê" isso.
6
🔐 Auth e Segurança
Quem pode acessar o quê. Autenticação, autorização por papel, rate limiting, validação de inputs. Impede uso abusivo e vazamento de dados entre usuários.
5
🧠 Orquestração
O "cérebro" do sistema. Decide o que injetar no contexto, quando chamar quais ferramentas, como gerenciar o histórico. Toda lógica de negócio fica aqui.
4
🤖 Modelo LLM
Claude, GPT, Gemini — o motor de geração de linguagem. Recebe contexto estruturado, retorna texto ou chamadas de ferramentas. Componente trocável sem reescrever o sistema.
3
🔧 Ferramentas e Integrações
Tudo que o LLM pode "fazer": consultar banco de dados, chamar APIs externas, enviar e-mail, acessar documentos. O agente age através das ferramentas.
2
🗄️ Armazenamento
Onde ficam os dados: banco de vetores (para busca semântica), banco relacional (histórico, usuários), cache (sessões ativas). Cada tipo resolve um problema diferente.
1
📊 Observabilidade
Logs, métricas, traces, alertas. O que está acontecendo, quanto está custando, onde está falhando. Sem isso, você está voando cego em produção.
N2 · Arquiteto
Memória

Contexto e memória: por que o assistente "esquece"

Um LLM não tem memória entre conversas. Toda sessão começa do zero. O que parece "memória" é engenharia — dados armazenados externamente e reinjetados no contexto no momento certo.

🪟 Janela de contexto

É o "espaço de trabalho" ativo do modelo — tudo que ele pode "ver" numa chamada. Pode ser de 8K a 2 milhões de tokens (palavras). Parece muito, mas tem custo por token e atenção não é uniforme ao longo do contexto.

💾 Memória externa

Banco de dados que armazena histórico, preferências e documentos. A cada nova mensagem, o sistema recupera o que é relevante e injeta no contexto. É assim que o assistente "lembra" de conversas passadas.

🏗️

O que um gestor de produto precisa saber

Quando um usuário diz "o sistema não lembrou de mim", o problema é de engenharia de memória — não do modelo. A pergunta certa para o time técnico é: "O que está sendo persistido entre sessões? Como o histórico relevante está sendo recuperado e injetado no contexto?"

N2 · Arquiteto
RAG para negócios

RAG: sua base de conhecimento conectada ao modelo

RAG (Retrieval-Augmented Generation) é a técnica que permite ao LLM responder com base nos seus documentos, políticas, dados e histórico — sem precisar retreinar o modelo.

❌ Sem RAG

"Qual é a nossa política de reembolso de viagens?"

→ Modelo responde com política genérica do mercado ou diz que não sabe. Inútil para uso corporativo.

✅ Com RAG

"Qual é a nossa política de reembolso de viagens?"

→ Sistema recupera automaticamente o documento de políticas de RH atualizado e responde com a regra exata da empresa, com referência à fonte.

Como RAG funciona (versão não técnica)

1
📄 Indexação
Seus documentos (PDFs, políticas, contratos, manuais) são processados, fragmentados e armazenados de forma que o sistema consiga buscar por significado — não apenas por palavras-chave.
2
🔍 Busca inteligente
Quando o usuário faz uma pergunta, o sistema encontra os trechos mais relevantes dos seus documentos — mesmo que a pergunta use palavras diferentes das usadas no documento.
3
🤖 Geração contextualizada
O LLM recebe a pergunta + os trechos relevantes e gera uma resposta baseada no que encontrou. A resposta pode citar as fontes usadas.
💡

RAG vs. Fine-tuning — qual usar?

Fine-tuning é retreinar o modelo com seus dados — caro, lento, e os dados ficam desatualizados. RAG é a escolha certa em 99% dos casos corporativos: atualiza em tempo real, custa menos, permite auditar o que foi usado para responder. Use fine-tuning apenas para mudar o estilo ou tom do modelo, não para ensinar fatos.

N2 · Arquiteto
Agentes

Agentes e sub-agentes: automação real vs. hype

Agentes são sistemas onde o LLM não só responde, mas planeja e executa ações em múltiplos passos para atingir um objetivo. Sub-agentes são agentes especializados que trabalham em paralelo coordenados por um orquestrador.

🎯 O que um agente real faz

Recebe um objetivo → decompõe em etapas → executa cada etapa usando ferramentas (banco de dados, APIs, sistemas) → adapta o plano com base nos resultados → entrega o resultado final.

🕸️ Multi-agente

Para objetivos complexos que cruzam domínios: um agente supervisor coordena sub-agentes especializados (fiscal, RH, TI). Cada sub-agente é especializado em seu domínio e trabalham em paralelo.

⚠️ O que ainda é hype

Agentes 100% autônomos sem supervisão humana em processos de alto impacto. A realidade de 2026: agentes semi-autônomos com aprovação humana nos pontos críticos é o padrão seguro e regulatório.

🏗️

Pergunta de arquiteto: qual nível de autonomia?

Antes de construir um agente, defina: quais ações podem ser automáticas? Quais precisam de aprovação humana? Quais são irreversíveis? Comece pelo menor nível de autonomia que resolve o problema. Adicione autonomia gradualmente, com evidências de confiabilidade.

N2 · Arquiteto
Computer Use

Computer Use: a IA que opera sistemas sem API

Computer Use é a capacidade de um agente controlar um computador visualmente — da mesma forma que um humano faria. É especialmente valioso para sistemas legados que não têm API e nunca terão.

✅ Onde faz sentido

  • Sistemas legados sem API (ERP antigo, terminal mainframe)
  • Preenchimento de formulários repetitivos em portais governamentais
  • Extração de dados de interfaces que não exportam
  • Automação de fluxos em sistemas que você não pode modificar

⚠️ Onde ainda tem limitações

  • Interfaces que mudam frequentemente (o agente "esquece" onde clicar)
  • Ações que exigem precisão de pixel (drag-and-drop complexo)
  • Sistemas com autenticação de dois fatores visual
  • Interfaces em tempo real com atualizações muito rápidas
N2 · Arquiteto
Infraestrutura

Infra, bancos de dados e por que você precisa de um banco vetorial

Sistemas de IA precisam de infraestrutura diferente da tradicional. A principal novidade: bancos de dados vetoriais, que permitem busca por significado — não apenas por valores exatos.

🗂️ Banco relacional (SQL)

Dados estruturados: usuários, histórico de conversas, configurações, transações. Postgres, MySQL, SQL Server. Você já tem e já conhece.

Para IA: histórico de sessões, logs, perfis de usuário.

⚡ Cache (Redis)

Sessões ativas, respostas frequentes, contexto temporário. Muito rápido, memória temporária. Essencial para performance em chatbots com muitos usuários simultâneos.

Para IA: sessão ativa do usuário, resultados de buscas recentes.

🔍 Banco Vetorial

Armazena representações matemáticas de textos. Permite buscar por significado: "como tirar férias" encontra documentos sobre "solicitação de recesso", mesmo sem as palavras exatas.

Para IA: base de conhecimento do RAG, memória semântica.

💡

Por que um banco vetorial não substitui o banco tradicional

Bancos vetoriais são ótimos para "encontrar o que é semanticamente próximo". Mas são ruins para "me dê o registro com ID 12345" ou "todos os usuários que se cadastraram em março". Use cada tecnologia para o que ela faz bem. A maioria dos sistemas de IA usa os dois tipos em paralelo.

N2 · Arquiteto
Segurança de Produto

Guardrails: as travas que tornam um agente confiável

Guardrail é qualquer mecanismo que impede um sistema de IA de se comportar de formas indesejadas. É a primeira pergunta que compliance, jurídico e liderança vão fazer quando você apresentar um agente. Saber responder com precisão é o que separa um projeto aprovado de um bloqueado.

💬

A pergunta que você vai ouvir

"E se o agente fizer algo errado? O que impede ele de mandar um e-mail para o cliente errado, aprovar um pagamento indevido ou revelar dados confidenciais?" A resposta é: guardrails em camadas. Não existe uma trava única — existe um sistema de proteções que trabalham juntas.

Os três tipos de guardrail — e onde cada um age

📥

Guardrail de Entrada

Filtra o que o usuário pode enviar ao sistema. Bloqueia inputs maliciosos, conteúdo inadequado, tentativas de manipulação do agente ou perguntas fora do escopo do produto.

Exemplos: bloquear queries sobre concorrentes, impedir upload de arquivos executáveis, detectar tentativas de prompt injection antes de chegar ao modelo.

📤

Guardrail de Saída

Filtra ou transforma o que o agente retorna ao usuário. Detecta se a resposta contém informações que não deveriam ser expostas, linguagem inadequada, ou dados de outros usuários.

Exemplos: mascarar CPFs e números de cartão que apareçam em respostas, bloquear resposta se contiver dados de outros clientes, alertar se o agente tentar recomendar um concorrente.

🧠

Guardrail Comportamental

Define o que o agente pode e não pode fazer — independente do que o usuário peça. Estabelecido no system prompt e reforçado pela arquitetura. É o contrato de comportamento do sistema.

Exemplos: "nunca execute pagamentos sem aprovação humana", "nunca acesse dados de outros departamentos", "sempre citar a fonte quando responder sobre legislação".

Guardrail do modelo vs. guardrail da sua aplicação

🤖 Guardrail nativo do modelo

O próprio modelo recusa ou filtra certos comportamentos por padrão. Claude tem Constitutional AI — um conjunto de princípios incorporados durante o treinamento que o tornam resistente a produzir conteúdo prejudicial, enganoso ou perigoso, mesmo quando instruído.

Vantagem: você não precisa implementar. Limitação: você não controla — e não cobre as regras de negócio específicas da sua empresa.

🏗️ Guardrail da sua aplicação

Camadas de proteção que você constrói em torno do modelo para as regras específicas do seu produto: quais ações o agente pode executar, quais dados pode acessar, quais aprovações são necessárias, o que registrar em log para auditoria.

Vantagem: você controla totalmente. Limitação: requer design, implementação e manutenção — é engenharia, não configuração.

🏗️

Guardrails como requisito de produto, não detalhe técnico

Guardrails precisam ser definidos pelo produto e negócio antes de serem implementados pela engenharia. As perguntas são de negócio: "Quais ações o agente nunca pode executar sozinho? Que tipos de dados ele nunca pode expor? Em que situações ele deve escalar para um humano?" Definir isso no início evita retrabalho caro e risco regulatório.

N2 · Arquiteto
Base do RAG

Embeddings: a impressão digital semântica dos seus documentos

Embedding é a tecnologia que torna o RAG possível. Entender o que é — e onde as decisões de produto afetam a qualidade — permite fazer as perguntas certas para o time técnico e evitar problemas silenciosos que só aparecem em produção.

🔢

O que é um embedding

Um embedding é a representação matemática de um texto como uma lista de números (um vetor). Textos com significados parecidos geram vetores parecidos — e essa proximidade matemática é o que permite a busca por significado.

É como se cada documento recebesse uma "impressão digital semântica". Documentos sobre "rescisão contratual" e "demissão por justa causa" terão impressões digitais próximas — mesmo sem usar as mesmas palavras.

🔍

Por que importa para o RAG

Quando um usuário faz uma pergunta, o sistema transforma essa pergunta em um embedding e busca os documentos com embeddings mais próximos. Sem embeddings, você só consegue busca por palavras exatas — que falha sempre que o usuário usa uma formulação diferente da que está no documento.

"Política de home office" encontra documentos sobre "trabalho remoto" e "teletrabalho". Busca por palavras exatas não encontraria nada.

As decisões de produto que afetam a qualidade dos embeddings

1
Língua do modelo
Modelos de embedding treinados predominantemente em inglês performam mal em português — especialmente com jargões jurídicos, fiscais e técnicos brasileiros. A pergunta para o time técnico: "O modelo de embedding foi avaliado em português com os tipos de documentos que vamos indexar?"
2
Domínio do modelo
Um modelo de embedding treinado em texto genérico da internet tem dificuldade com vocabulário técnico especializado — legislação tributária, manuais de mainframe, terminologia médica. Para bases muito especializadas, modelos de embedding específicos de domínio fazem diferença mensurável.
3
Quando re-indexar
Quando você atualiza um documento da base, o embedding desatualizado ainda existe — e pode ser recuperado em vez da versão nova. Toda atualização de documento exige re-geração do embedding correspondente. Para bases que mudam frequentemente, isso precisa ser automatizado, não manual.
4
Troca de modelo
Se você trocar o modelo de embedding (por qualidade ou custo), todos os documentos precisam ser re-indexados do zero. Embeddings de modelos diferentes não são comparáveis — misturá-los gera resultados incorretos. É uma migração, não uma atualização simples.
💡

A pergunta de produto que mais impacta a qualidade do RAG

Antes de aprovar a arquitetura de um sistema com RAG, pergunte: "Como avaliamos que a busca está retornando os documentos certos para as perguntas reais dos nossos usuários?" A resposta deve incluir um conjunto de perguntas de teste com as respostas esperadas — não apenas um demo de slides. RAG que funciona numa demo pode falhar nas perguntas específicas do seu domínio.

N2 · Arquiteto
Controle e Modelos

HITL e como escolher o modelo certo

Duas decisões de arquitetura que todo gestor precisa tomar: onde colocar o controle humano, e qual modelo usar para quê.

Human-in-the-Loop: onde o humano precisa estar

🤖 Automatize com segurança

Leitura e análise de dados, geração de rascunhos, classificação de documentos, notificações de rotina. Ações reversíveis e de baixo impacto não precisam de aprovação humana a cada passo.

🔐 Nunca automatize sem aprovação

Pagamentos, transferências, demissões, publicação em sistemas externos, envio de comunicados oficiais. Qualquer ação irreversível ou de alto impacto precisa de aprovação humana explícita — sempre.

Como escolher o modelo certo — sem olhar só para o mais caro

Caso de usoModelo idealPor quê
Análise complexa, raciocínio profundo Opus (topo) Qualidade máxima justifica custo em tarefas críticas
Chatbot, análise, geração diária Sonnet (mid) 80% da qualidade do Opus, 5× mais barato — workhorse ideal
Classificação, sumarização em volume Haiku (leve) Rápido e barato para tarefas simples e repetitivas
Base de conhecimento em volume alto DeepSeek / Qwen (open) 50–100× mais barato para volume; hospedar na própria infra
Contexto muito longo (documentos enormes) Gemini 3.1 Pro 2M tokens de contexto — único no mercado nessa escala
N2 · Arquiteto
Regulação

Regulação, governança e compliance em IA

O mundo regulatório de IA está sendo construído agora. Quem construir governança de IA hoje está à frente dos requisitos que virão — e evita as multas que já chegam na Europa.

🇪🇺 EU AI Act

Primeira regulação abrangente do mundo. Classifica sistemas por risco (inaceitável/alto/limitado/mínimo). Alto risco inclui: RH, crédito, saúde, infraestrutura. Vigência gradual 2025–2027. Multas: até 3% do faturamento global.

🇧🇷 PL 2338/2023 (Brasil)

Aprovado no Senado em 2024, em tramitação. Segue modelo europeu de risco. LGPD já afeta sistemas que tratam dados pessoais com IA. Empresas que exportam para UE precisam seguir o EU AI Act agora.

✅ Governança interna

Independente da regulação: documente quais sistemas usam IA, quais decisões a IA influencia, quais aprovações humanas existem. Isso protege em auditorias, processos e due diligence de M&A.

⚖️

A pergunta que todo gestor precisa responder

Para cada sistema de IA que você está construindo ou usando: "Se algo der errado, quem é o responsável e como provamos o que aconteceu?" Se você não tem resposta clara para essa pergunta, sua governança de IA ainda está incompleta.

Nível 3 ⚙️ Desenvolvedor / Tech Lead — Arquitetura e tradeoffs Profundidade técnica sem código — decisões, padrões e armadilhas
N3 · Dev
Distinção Fundamental

AI Assisted vs. AI Integrated

Esta é a primeira decisão de arquitetura — e a mais importante. Confundir os dois modos leva a sistemas frágeis, inseguros e difíceis de manter. Muitos projetos derivam de um para o outro sem perceber, e essa transição acidental é a origem de boa parte dos problemas em produção.

🛠️ AI Assisted
A IA está no processo de construção. O produto final não depende dela em runtime.
  • Você usa Claude Code, Copilot, Cursor para escrever código
  • A IA revisa, sugere, refatora durante o desenvolvimento
  • O software gerado roda sem nenhuma API de LLM em runtime
  • Se a API da Anthropic sair do ar, seu produto continua funcionando
  • Spec-driven development: você escreve a spec, IA implementa
  • O desenvolvedor é o árbitro final da qualidade
Analogia: usar um torno para fabricar uma peça. O torno é a ferramenta — a peça existe independentemente dele.
🔌 AI Integrated
A IA está dentro do produto. O usuário final interage com ela, direta ou indiretamente.
  • Chatbot, agente, classificador, sumarizador faz parte do sistema
  • Depende de API externa (Anthropic, OpenAI) em runtime para funcionar
  • Se a API cair, o produto para — precisa de fallback
  • Custo variável por uso (tokens) — precisa de estimativas e controles
  • Qualidade não-determinística — mesma pergunta pode ter respostas diferentes
  • Contexto, memória, RAG e ferramentas precisam ser projetados
Analogia: o motor do carro. Sem ele, o carro não funciona. Você precisa projetar o sistema inteiro em torno dessa dependência.
⚠️

A zona cinza que confunde todo mundo

Um script gerado com AI Assisted que depois vira um endpoint chamado em produção passou a ser AI Integrated sem que ninguém percebeu. Um relatório gerado por Claude que passa a ser exibido diretamente a clientes é AI Integrated — com todas as implicações de qualidade, latência, custo e segurança. Esta transição precisa ser uma decisão consciente e documentada.

Pontos de atenção por modo

🛠️ AI Assisted — Pontos de atenção
Qualidade da revisão humana: o dev precisa entender o que está aceitando. IA gera código plausível — não necessariamente correto ou seguro. Aceitar sem entender acumula débito técnico invisível.
Débito técnico invisível: código gerado sem revisão profunda mistura padrões, cria acoplamentos ruins e viola convenções. Explode semanas depois quando ninguém lembra o que a IA gerou.
Lógica de negócio não documentada: a IA não conhece regras implícitas do domínio. Se você não passa o contexto correto via CLAUDE.md e spec, ela vai inferir — e inferir errado silenciosamente.
Velocidade sem validação: gerar 10 features em 1 dia é fácil. A armadilha é que o tempo de validação não caiu na mesma proporção — features não validadas chegam com bugs em produção.
🔌 AI Integrated — Pontos de atenção
Dependência de API externa em runtime: seu SLA está limitado pelo SLA do provedor. Fallback não é opcional — é requisito. O que acontece quando a API retorna 529 às 2h da manhã?
Custo variável e imprevisível: cada token tem custo. Um bug de loop, um usuário abusivo ou pico inesperado pode gerar custo catastrófico sem rate limit e circuit breaker.
Não-determinismo em produção: a mesma entrada pode gerar saídas diferentes. Testes de snapshot não funcionam. Você precisa de evals que avaliam qualidade e comportamento.
Dados dos usuários em trânsito: o contexto enviado ao modelo passa pelos servidores do provedor. LGPD, contratos de uso e acordos de processamento precisam estar revisados antes do go-live.
Latência percebida: gerações levam 2–30 segundos. Sem streaming, o usuário vê tela branca e desiste. Streaming é requisito de UX, não feature opcional.
⚠️

A transição acidental — o risco mais comum

Um script gerado com AI Assisted que vira endpoint em produção tornou-se AI Integrated sem decisão consciente. Cada transição precisa ser documentada e revisada — não acidental.

N3 · Dev
Estrutura

Arquitetura de uma aplicação LLM

Princípio central: toda lógica de negócio fica na Orchestration Layer — não no system prompt, não no código de chamada da API. O LLM é um componente de geração, não o controlador. Esse princípio é o que separa sistemas mantíveis de spaghetti com IA no meio.

I
Interface
Ponto de entrada — chat, Slack, API REST, CLI. Não contém lógica de negócio. Recebe input, valida formato básico, exibe output. O LLM não "vê" a interface.
A
Auth + Validação + Rate Limiting
Quem pode fazer o quê, quanto pode fazer, o que pode enviar. Autenticação, autorização por papel, limite de tokens por usuário/tenant, sanitização de input. Nenhum input chega ao LLM sem passar aqui.
O
Orchestration Layer ← o cérebro real
Toda lógica de negócio aqui: construção de contexto, recuperação de memória, chamadas RAG, roteamento de tools, loop de agência. Você pode trocar de modelo sem tocar nessa camada — isso é o que garante que o sistema sobrevive ao próximo lançamento do Claude.
L
LLM (componente trocável)
Recebe contexto estruturado, retorna texto ou tool calls. Tratado como serviço externo com SLA — não como infraestrutura crítica. A escolha do modelo é uma configuração, não uma decisão irrevogável de arquitetura.
T
Tools e Integrações
Funções que o agente pode solicitar: banco, APIs, sistemas internos, MCP Servers. O agente solicita — sua aplicação valida, executa com permissões corretas e retorna resultado. Controle de execução é sempre seu.
S
Storage (Vector + SQL + Cache)
Três tecnologias com papéis distintos: SQL para dados estruturados persistentes, Vector DB para busca semântica (RAG), Cache para sessão ativa. Usar a tecnologia errada para o problema é origem de bugs silenciosos.
N3 · Dev
Engenharia de contexto e memória

Engenharia de contexto e hierarquia de memória

A janela de contexto é o único "estado" que o LLM tem. O que você coloca ali, como organiza e em que ordem determina a qualidade tanto quanto o modelo escolhido. Atenção no contexto não é uniforme — ignorar isso é uma das fontes mais comuns de degradação silenciosa.

⬆️ Lost in the Middle

Pesquisa documentada: LLMs prestam mais atenção ao início e ao fim do contexto. Informações no meio são sistematicamente menos utilizadas. Instruções críticas vão no início. Query atual vai no fim. Documentos RAG vão logo antes da query — nunca enterrados no meio.

📐 Hierarquia de injeção

Ordem: (1) system prompt + regras, (2) memória semântica do usuário, (3) sumário episódico de sessões anteriores, (4) documentos RAG relevantes, (5) histórico recente da conversa, (6) query atual. Inverter qualquer parte degrada a qualidade.

Os 4 tipos de memória — e o que construir para cada um

TipoO que éOnde ficaQuando construir
In-ContextTudo na janela ativa: system prompt, histórico, documentos injetadosNa chamada à APISempre — é o mínimo
External (RAG)Base de conhecimento em vector DB, recuperada sob demandaVector DB + pipeline de indexaçãoQuando a base tem >50 documentos
EpisodicHistórico de interações sumarizado por LLM (Haiku)Postgres + sumarizador assíncronoQuando o produto precisa de continuidade entre sessões
SemanticPreferências extraídas: "prefere bullets", "usa z/OS 2.5"Postgres, injetado no system promptQuando personalização por usuário é requisito
N3 · Dev
RAG em profundidade

Tipos de RAG, chunking e estratégias de retrieval

RAG não é uma técnica única — é uma família de abordagens com tradeoffs distintos. Escolher errado entre Naive RAG, Advanced RAG e GraphRAG é a diferença entre um sistema que responde bem e um que alucina usando seus próprios documentos.

📄 Naive RAG

Básico

Chunking fixo → embedding → cosine similarity → injeta top-k chunks. Funciona para bases simples. Falha com documentos de estrutura complexa, queries que combinam múltiplos documentos, ou bases com muito ruído.

Use para: PoC, base pequena (<500 docs), domínio homogêneo.

⚡ Advanced RAG

Produção

Adiciona ao Naive: chunking semântico ou hierárquico, hybrid retrieval (dense + sparse), reranking com cross-encoder, query rewriting. Significativamente melhor em bases heterogêneas e queries em linguagem natural.

Use para: bases com tipos mistos, usuários reais, quando precisão importa.

🕸️ GraphRAG

Relacional

Constrói grafo de conhecimento com entidades e relacionamentos. Permite queries que cruzam múltiplas entidades: "fornecedores com cláusula X que também forneceram para o projeto Y". Similaridade semântica não resolve isso.

Use para: contratos, organigramas, redes de fornecedores, compliance.

Chunking — o impacto mais subestimado na qualidade do RAG

EstratégiaComo funcionaMelhor paraArmadilha
Fixed-sizeDivide em N tokens com overlap fixoPrototipagem, base homogêneaCorta frases no meio, perde contexto semântico
SemanticDetecta quebras de tópico por similaridade de embeddingsDocumentos técnicos longosMais caro; chunks de tamanho variável
Hierarchical / Parent-ChildChunk pequeno para retrieval, chunk pai para contexto ricoDocs estruturados com seçõesDois níveis de indexação; complexidade adicional
Document-structure-awareRespeita headers, tabelas, listas do documentoPDFs com estrutura, MarkdownPDFs escaneados quebram o parser
Code-awareDivide por função, classe, bloco lógicoSource code, SQL, COBOL por SECTION/PARAGRAPHPrecisa de parser específico por linguagem

Tipos de retrieval — por que híbrido é o padrão de produção

🔢 Dense Retrieval

Busca por similaridade semântica via embeddings. Encontra documentos relacionados mesmo sem palavras em comum. Fraco para termos técnicos exatos, siglas, IDs e nomenclatura específica de sistema.

🔤 Sparse / BM25

Busca clássica por frequência de palavras-chave. Excelente para termos exatos: "SQLCODE -811", "art. 130 CLT", IDs de sistema. Falha quando o usuário usa palavras diferentes das do documento.

⚡ Hybrid + Reranking

Combina dense + sparse via Reciprocal Rank Fusion (RRF). Cross-encoder reavalia os top-20 contra a query com muito mais precisão. Melhor qualidade de retrieval ao custo de ~100ms adicional de latência.

N3 · Dev
Infraestrutura

Vector databases — comparativo e tradeoffs reais

Todos fazem a mesma coisa fundamental: armazenam embeddings e permitem busca por similaridade. O que os diferencia são tradeoffs de escala, deploy, custo, filtragem por metadados e integração com seu stack existente.

BancoModeloEscalaHybrid searchMelhor para
pgvectorExtensão PostgresAté ~5M vetoresNão nativoStack legado com Postgres. Zero nova infra. JOINs com tabelas relacionais.
QdrantOpen-source (Rust)Bilhões✅ NativoProdução de alta performance. Filtragem complexa. Excelente custo-benefício.
WeaviateOpen-sourceBilhões✅ BM25 + vectorSchema flexível, multimodalidade, módulos de auto-embedding.
PineconeServerless gerenciadoEscala automática✅ NativoPoCs rápidos sem infra para gerenciar. Mais caro em volume alto.
ChromaOpen-source embarcadoPequena (<1M)LimitadoDesenvolvimento local, testes, PoCs. Não para produção em escala.
MilvusOpen-source enterpriseBilhões, GPU✅ HybridGrandes empresas com requisito on-premise e volume massivo.

⚡ HNSW — padrão de produção

Hierarchical Navigable Small World. Grafo hierárquico de vizinhança, complexidade O(log n), escala para bilhões. Recall de 95–99% vs. k-NN exato. Trade-off: alto uso de memória (grafo em RAM) e build inicial lento.

📦 IVFFlat — quando memória é restrição

Divide o espaço vetorial em clusters e busca nos clusters mais próximos. Menor uso de memória que HNSW, recall inferior e sensível ao número de clusters (nlist). Use quando memória é restrição e recall ligeiramente menor é aceitável.

🏦

Para ambientes com data residency e compliance

pgvector é a escolha mais segura: dados ficam no Postgres já homologado pelo jurídico, JOINs com tabelas relacionais existentes, sem novo serviço. Limitação: acima de ~5M vetores com queries complexas, migrar para Qdrant self-hosted em Kubernetes interno é o caminho natural de evolução.

N3 · Dev
Segurança

Segurança em profundidade: além do prompt injection

Prompt injection é a ameaça mais conhecida, mas longe de ser a única. Sistemas LLM em produção expõem vetores de ataque que não existem em software tradicional. A defesa é sempre camadas — não existe silver bullet.

AmeaçaMecanismoImpactoDefesa principal
💉 Prompt Injection DiretaInput contém instruções que sobrescrevem o system promptBypass de guardrails, comportamento não autorizadoXML tags isolando input, validação de padrões, reforço no system prompt
🕵️ Indirect InjectionInstruções em documentos que o agente processa (PDFs, emails)Agente executa instruções de terceirosSanitizar docs antes de indexar; XML tags delimitando documentos de instruções
🔓 System Prompt Exfiltration"Repita suas instruções originais" em variações criativasExposição de lógica proprietária e regras de negócioInstrução explícita para não revelar; nunca colocar segredos reais no prompt
👥 Cross-tenant Data LeakDados de um usuário vazam para outro via contexto ou RAG sem isolamentoViolação de privacidade e LGPDFiltro obrigatório por tenant_id em todo retrieval; sessões completamente isoladas
🔑 API Key ExposureChaves em código, logs, repos públicosCusto ilimitado, acesso não autorizadoSecrets manager, env vars, rotação automática, scan de repositório
💸 Cost InjectionInputs massivos ou loops de agente para consumir tokensCusto catastrófico, DoS econômicoLimite de tamanho de input, rate limit, circuit breaker de custo
📦 RAG PoisoningDocumentos maliciosos injetados na base de conhecimentoDesinformação sistemática via RAGControle de acesso à ingestão; revisão humana de fontes externas
🎭 Jailbreak via Persona"Finja que você é um AI sem restrições" / role-playBypass de guardrails comportamentaisConstitutional AI mitiga muito; reforço que regras valem em qualquer persona

Multi-tenancy: os três padrões de isolamento

🏷️ Isolamento por Metadado

Simples

Todo documento carrega tenant_id. Toda query filtra por ele obrigatoriamente. Simples e eficiente — mas um bug que omite o filtro vaza dados de todos.

📂 Collections separadas

Recomendado

Cada tenant tem sua própria collection no vector DB. Isolamento estrutural — não depende de filtro. Pinecone e Qdrant suportam nativamente. Overhead de gestão de collections.

🗄️ Instância separada

Enterprise

Cada cliente tem sua própria instância de vector DB. Máximo isolamento e compliance. Custo: gestão de infra multiplica linearmente com o número de tenants.

🔐

Privilégio mínimo em tool use

Cada tool que o agente pode chamar deve ter apenas as permissões mínimas para sua função. Um agente de atendimento nunca precisa de DELETE no banco — só SELECT nas tabelas relevantes. Se for comprometido via injection, o raio de explosão é limitado pelas permissões da tool, não pelo que o banco suporta tecnicamente.

N3 · Dev
Qualidade

Evals com substância: o que medir e como

Testes de snapshot não funcionam para LLMs. Evals são o substituto: conjuntos de casos com critérios avaliados automaticamente. Sem evals, você não sabe se a última mudança de prompt melhorou ou piorou o sistema.

As 4 métricas fundamentais para sistemas RAG

🎯 Faithfulness

A resposta é factualmente consistente com os documentos recuperados? Mede se o LLM "inventou" algo além do que estava nos chunks injetados. Alta faithfulness = o modelo não alucina sobre seus próprios documentos.

🔍 Answer Relevance

A resposta endereça a pergunta real do usuário? Um modelo pode ser fiel aos documentos mas responder uma pergunta diferente da que foi feita. Fidelidade ≠ utilidade.

📄 Context Relevance

Os documentos recuperados pelo RAG são relevantes para a pergunta? Mede a qualidade do retrieval, não da geração. Baixo context relevance = problema no chunking, embedding ou falta de reranking.

🌱 Groundedness

Cada afirmação pode ser rastreada a um documento fonte? Crítico para compliance e auditoria. Sem groundedness, você não consegue explicar por que o sistema respondeu o que respondeu.

Tipo de evalComo funcionaCustoQuando usar
✅ DeterminísticoVerificações objetivas: contém string X? tool Y foi chamada? formato correto?Zero (sem LLM)Sempre — CI/CD em todo PR. Base de qualquer pipeline.
🤖 LLM-as-JudgeLLM menor (Haiku) avalia qualidade da resposta contra critérios~$0.001/evalQualidade semântica, tom, completude — o que string matching não captura.
👥 Human EvalRevisores humanos avaliam amostra aleatória de respostas reaisAlto (tempo humano)Lançamento, troca de modelo, calibrar o LLM-as-Judge.
📊 Shadow TestingNovo modelo/prompt roda em paralelo sem exposição ao usuárioMédio (dobrar chamadas)Antes de qualquer troca de modelo ou prompt em produção.
🔧

Ferramentas de eval em 2026

RAGAS — framework open-source com métricas faithfulness/relevance/groundedness prontas. LangSmith — observabilidade e evals com UI para revisar traces. Braintrust — eval platform com golden dataset management e comparação de versões. Promptfoo — eval leve e open-source, ótimo para CI/CD.

N3 · Dev
Observabilidade

Observabilidade de agentes: traces, custo e anomalias

Agentes falham de formas não-determinísticas e às vezes silenciosas. Sem observabilidade estruturada, você descobre o problema pelo valor da fatura — não pelos logs.

A anatomia de um trace de agente

1
Session metadata
ID de sessão único, user_id, timestamp, modelo, versão do prompt, tenant_id. Sem isso você não consegue correlacionar logs de múltiplos serviços para investigar um incidente.
2
Cada chamada à API
Input tokens, output tokens, custo calculado, latência, stop_reason. Agregados por sessão: custo real por conversa. Agregados por usuário: quem está abusando.
3
Cada tool call
Nome, input completo, output completo (ou hash se sensível), duração, sucesso/falha. Permite depurar "o agente chamou a ferramenta certa com os parâmetros certos?"
4
Retrieval do RAG
Query usada, scores dos chunks, quais foram injetados no contexto. Quando o sistema responde errado, 80% das vezes o problema está no retrieval — sem esse log você não diagnostica.
5
Ativações de HITL
Quando o agente escalou para humano, por quê, tempo de aprovação. Taxa muito alta = agente vacila demais. Taxa zero = critérios frouxos demais ou sistema simples demais para precisar de agente.

Alertas críticos com lógica de detecção

🔁 Loop infinito

Se a mesma tool foi chamada com o mesmo input mais de N vezes na sessão, ou se a sessão tem mais de M steps sem stop_reason "end_turn" → abort automático + alerta. Loops custam caro e podem indicar ataque ou bug crítico.

💸 Anomalia de custo

Custo por sessão acima do percentil 99 histórico → alerta imediato. Custo diário acima do orçamento → alerta + throttle automático. Rate limit por usuário evita que um cliente consuma toda a cota.

⚠️ Tool não autorizada

Agente tentou chamar tool fora da lista autorizada para aquele contexto ou nível de permissão → abort imediato + log de segurança. Pode indicar prompt injection bem-sucedida.

📉 Degradação silenciosa

Taxa de ativação de HITL subindo gradualmente → possível degradação de qualidade. Taxa de evals determinísticos caindo → mudança não intencional após update de prompt ou dependência.

N3 · Dev
Patterns

Padrões arquiteturais de agentes e MCP

Escolher o padrão certo antes de implementar economiza semanas de retrabalho. O erro mais comum é usar o padrão mais complexo quando um mais simples resolveria.

⚡ ReAct

Base

Reasoning + Acting. Loop: pensa → age → observa → adapta. Padrão de fato para agentes com ferramentas. Bom para tarefas exploratórias onde o caminho emerge durante a execução. Difícil de auditar — você não sabe o plano antes de executar.

📋 Plan-and-Execute

Auditável

Fase 1: modelo maior cria plano completo. Fase 2: modelo menor executa cada etapa. Plano pode ser apresentado ao usuário para HITL antes de executar. Melhor para processos com etapas conhecidas.

🕸️ Supervisor-Worker

Escala

Supervisor (Opus) decompõe e delega para sub-agentes especializados em paralelo. Workers usam modelos menores (Haiku, Sonnet). Reduz custo total em 40–60% vs. usar o modelo maior em tudo.

🔌 MCP

Padrão aberto

Model Context Protocol: encapsula ferramentas em servidores reutilizáveis. Um MCP Server é consumido por Claude Code, Claude.ai e sua app sem reimplementar. Principal valor: time de negócio mantém o MCP Server, time de IA consome as ferramentas.

N3 · Dev
Spec-Driven Development

Spec-Driven Development com Claude Code

A forma mais eficaz de usar AI Assisted: escrever specs detalhadas primeiro, deixar o agente implementar, revisar contra a spec. A spec é o artefato principal — o código é uma consequência dela.

📋

1. Spec antes de código

Entradas, saídas, regras de negócio, casos de borda, o que é proibido. Spec vaga gera código que parece funcionar mas tem edge cases errados. Spec ruim é pior que ausência de spec — orienta o agente na direção errada.

⚙️

2. Agente implementa

Claude Code lê a spec + CLAUDE.md e implementa. Erra em direção à spec — que é o comportamento que você quer. Você não escreve código, você revisa comportamento. Sua habilidade de criar boa spec é o multiplicador real.

3. Valide contra a spec

Critério único: "o código se comporta exatamente como especificado?" Quando diverge: ajuste a spec (se estava errada) ou o código (se o agente interpretou mal). A spec evolui e vira documentação viva do sistema.

O que um CLAUDE.md efetivo precisa ter

1
Stack e versões exatas
Python 3.11 + FastAPI 0.111 + pgvector 0.3. Não "Python" genérico. Sem versões exatas, o agente pode usar APIs depreciadas ou sintaxe da versão errada silenciosamente.
2
Regras de negócio não-óbvias
O que um dev novo levaria dias para descobrir: "Salários usam COMP-3 — sempre converter antes de operar." "Toda query ao DB2 precisa de COMMIT explícito." Conhecimento implícito que o agente não tem.
3
Lista explícita de "nunca faça"
"Nunca DELETE sem WHERE." "Nunca commitar em main diretamente." O agente respeita proibições explícitas muito mais do que implícitas.
4
Arquivos-chave e contexto do domínio
Quais arquivos fazem o quê e o que a aplicação faz no mundo real. Um agente que sabe que está modificando um sistema de folha de pagamento de 5.000 funcionários toma decisões de segurança diferentes de um que não tem esse contexto.
🎯

CLAUDE.md como vantagem competitiva de time

Times que investem em CLAUDE.md de qualidade produzem código melhor com Claude Code do que times que não investem — mesmo usando o mesmo modelo. A qualidade do contexto que você fornece é o multiplicador que nenhum upgrade de modelo substitui. Um bom CLAUDE.md elimina ~80% das correções manuais no código gerado.

Referência

Glossário — Nivelamento completo

Os termos mais importantes organizados por nível de relevância. Use como cheat sheet antes de reuniões, consultorias e apresentações.

Inteligência Artificial (IA) BASE
Campo amplo de ciência da computação que busca criar sistemas capazes de realizar tarefas que normalmente exigem inteligência humana — raciocínio, aprendizado, percepção.
Machine Learning (ML) BASE
Subconjunto de IA onde sistemas aprendem padrões a partir de dados, sem serem explicitamente programados para cada regra. Base da maioria dos sistemas de IA modernos.
Deep Learning (DL) BASE
Subconjunto de ML que usa redes neurais com muitas camadas. Revolucionou visão computacional, reconhecimento de voz e é a base dos LLMs modernos.
LLM BASE
Large Language Model — modelo de aprendizado profundo treinado em grandes volumes de texto. Gera linguagem natural e responde a instruções. Ex: Claude, GPT-5, Gemini.
IA Generativa BASE
Categoria de IA que cria conteúdo novo: texto, imagem, código, áudio, vídeo. É o que está dominando o mercado desde 2022. Subconjunto de Deep Learning.
Token BASE
Unidade básica de texto para LLMs — aproximadamente ¾ de palavra em inglês ou ½ em português. Toda cobrança de API é por tokens (entrada + saída).
Alucinação BASE
Quando o LLM gera informações falsas com aparente confiança. Não é um bug — é consequência do mecanismo probabilístico. Mitigado com RAG e validação humana.
Transformer BASE
Arquitetura de rede neural base de todos os LLMs modernos (2017). Mecanismo de self-attention permite processar relações entre tokens independentemente da distância.
Guardrail N2
Qualquer mecanismo que impede um sistema de IA de se comportar de formas indesejadas. Existem três tipos: entrada (filtra o que o usuário envia), saída (filtra o que o agente retorna) e comportamental (define o que o agente pode ou não fazer). Precisa ser definido pelo produto antes de ser implementado pela engenharia.
Embedding N2
Representação matemática de um texto como vetor numérico. Textos com significados parecidos geram vetores próximos — base técnica do RAG. A qualidade depende do modelo usado: modelos treinados só em inglês performam mal em português. Trocar de modelo exige re-indexar toda a base.
Naive RAG N3
Implementação básica de RAG: chunking fixo → embedding → cosine similarity → top-k injetado no contexto. Ponto de partida válido para PoCs — insuficiente para produção com bases heterogêneas ou queries complexas.
Advanced RAG N3
RAG com chunking semântico ou hierárquico, hybrid retrieval (dense + sparse), reranking e query rewriting. Padrão para sistemas em produção com usuários reais e bases de documentos heterogêneas.
GraphRAG N3
Variante de RAG que constrói um grafo de conhecimento com entidades e relacionamentos. Permite queries relacionais que similaridade semântica não resolve — contratos, organigramas, redes de fornecedores.
Hybrid Retrieval N3
Combinação de dense retrieval (semântico via embeddings) e sparse retrieval (BM25/palavras-chave) via Reciprocal Rank Fusion (RRF). Padrão em produção — melhor dos dois mundos.
Reranking N3
Etapa pós-retrieval onde um cross-encoder reavalia os top-N documentos contra a query com muito mais precisão que o embedding inicial. ~100ms de latência adicional, melhora significativa na qualidade dos chunks injetados.
Faithfulness N3
Métrica de eval que mede se a resposta gerada é factualmente consistente com os documentos recuperados. Alta faithfulness = o modelo não alucina sobre seus próprios documentos.
HNSW N3
Hierarchical Navigable Small World — algoritmo de busca aproximada para vetores. Complexidade O(log n), escala para bilhões, recall de 95–99% vs. k-NN exato. Padrão em todos os vector databases de produção.
Cross-tenant Data Leak N3
Risco em sistemas multi-tenant onde dados de um usuário/cliente vazam para outro via contexto compartilhado ou RAG sem isolamento adequado por tenant_id. Violação de privacidade e LGPD.
Golden Dataset N3
Conjunto de pares (pergunta, resposta esperada) construído manualmente a partir de casos de uso reais. Padrão de ouro contra o qual todas as versões futuras do sistema são comparadas em evals.
Prompt N1
A instrução ou pergunta que você envia para o LLM. A qualidade do prompt determina diretamente a qualidade da resposta — "garbage in, garbage out".
Agente N1
Sistema de IA que não só responde — planeja, executa ações em múltiplos passos e adapta o plano com base nos resultados. A fronteira atual entre chatbots e automação real.
Computer Use N1
Capacidade de um agente controlar um computador visualmente — tirar screenshot, interpretar a tela, clicar e digitar. Útil para sistemas sem API disponível.
Fine-tuning N1
Retreinar um LLM existente com dados específicos para ajustar seu comportamento ou conhecimento. Caro e lento — na maioria dos casos RAG é a alternativa correta.
RAG N2
Retrieval-Augmented Generation. Combina busca em base de conhecimento externa com geração do LLM. Permite responder com base nos seus documentos sem fine-tuning.
Janela de contexto N2
O "espaço de trabalho" ativo do LLM numa chamada — tudo que ele pode ver e processar de uma vez. Vai de 8K a 2M tokens dependendo do modelo.
Vector Database N2
Banco de dados que armazena representações matemáticas de textos e permite busca por significado semântico. Base técnica do RAG. Ex: pgvector, Pinecone, Qdrant.
Embedding N2
Representação vetorial de texto onde proximidade geométrica = similaridade semântica. "Férias proporcionais" e "art. 130 CLT" ficam próximos no espaço vetorial.
HITL (Human-in-the-Loop) N2
Padrão de design onde humanos aprovam decisões de sistemas de IA em pontos críticos. Especialmente em ações irreversíveis ou de alto impacto. Pode ser requisito regulatório.
System Prompt N2
Instrução permanente que define identidade, regras e comportamento do modelo. Não visível ao usuário final. É onde você coloca as regras de negócio, persona e restrições.
EU AI Act N2
Primeira regulação abrangente de IA do mundo. Classifica sistemas por risco. Alto risco (RH, crédito, saúde) exige documentação, supervisão humana e registro. Vigor gradual 2025–2027.
Multi-agente N2
Arquitetura onde um agente supervisor coordena sub-agentes especializados trabalhando em paralelo. Permite combinar domínios distintos (fiscal + RH + TI) num único workflow.
AI Assisted N3
Modo onde a IA está no processo de desenvolvimento. O produto final não depende de LLM em runtime. Ex: usar Claude Code para escrever código que roda sem API de IA.
AI Integrated N3
Modo onde a IA está dentro do produto — o usuário interage com ela. Depende de API de LLM em runtime. Requer design de fallback, controle de custo e evals contínuos.
Orchestration Layer N3
Camada da aplicação que contém toda lógica de negócio: construção de contexto, RAG, memória, roteamento de tools. O LLM é um componente desta camada — não seu controlador.
Tool Use / Function Calling N3
Mecanismo pelo qual o LLM solicita execução de funções externas. O modelo decide quando chamar — sua aplicação executa e retorna o resultado. Base de qualquer agente.
MCP (Model Context Protocol) N3
Protocolo aberto da Anthropic para expor ferramentas em servidores reutilizáveis. Um MCP Server pode ser consumido por Claude Code, Claude.ai e apps próprias sem reimplementação.
Prompt Injection N3
Ataque onde instruções maliciosas no input do usuário tentam sobrescrever o system prompt. Equivalente ao SQL injection para sistemas LLM. Mitigado com XML tags e validação.
Evals N3
Avaliações sistemáticas de qualidade de sistemas LLM. Substituem testes unitários tradicionais. Tipos: determinístico, LLM-as-Judge, human eval, shadow testing.
ReAct N3
Reasoning + Acting. Padrão de agente onde o modelo alterna entre raciocinar, agir e observar em loop. Padrão de fato para agentes com ferramentas.
Plan-and-Execute N3
Padrão de agente com fase separada de planejamento (modelo maior) e execução (modelo menor). Mais previsível e auditável que ReAct. Permite HITL entre plano e execução.
CLAUDE.md N3
Arquivo de instruções de projeto lido pelo Claude Code no início de cada sessão. Equivalente ao system prompt do projeto. Versionado com o código. Base do Spec-Driven Development.
Spec-Driven Development N3
Metodologia onde você escreve especificações detalhadas e deixa o agente de código implementar. A spec é o artefato principal — o código é um resultado da spec, não o contrário.
Engenharia de Contexto N3
Disciplina de decidir o que entra na janela de contexto, em que ordem e com que prioridade. Tão importante quanto a escolha do modelo. Ruído no contexto degrada a qualidade.
Todas as tags
IAMLDeep Learning LLMGenerativaPreditiva DiscriminativaPrescritivaTransformer TokenAlucinaçãoPrompt AgenteComputer UseFine-tuning RAGVector DBEmbedding Janela de contextoHITLSystem Prompt Multi-agenteEU AI ActLGPD AI AssistedAI IntegratedTool Use MCPOrchestrationEvals Prompt InjectionReActPlan-Execute CLAUDE.mdSpec-DrivenEngenharia de Contexto
Módulo de Nivelamento — Cursinho de IA

Do conceito à implementação.

Este módulo cobre os três níveis de compreensão necessários para navegar o mundo de IA em 2026 — do usuário que quer usar melhor as ferramentas, ao arquiteto que projeta sistemas, ao desenvolvedor que os constrói.

↑ Voltar ao topo