IA
IA CONSULTORIA ⚡ Módulo 04
Módulo 04 de 08 · Atualizado Abril 2026

Ecossistema
Anthropic

API, modelos, preços reais por token, estratégias de otimização de custo, Projects como ferramenta de trabalho, Claude Code em profundidade e Extended Thinking. Tudo que um consultor e desenvolvedor precisa saber sobre o stack da Anthropic.

API Modelos Claude 4 Precificação Prompt Cache Projects Claude Code Extended Thinking
Conteúdo deste módulo
1Visão geral — o stack da Anthropic em 2026
2Família Claude 4 — Haiku, Sonnet, Opus em detalhe
3API — como funciona, preços e autenticação
4Estratégias de otimização de custo
5Projects — contexto persistente para trabalho real
6Claude Code — o agente de engenharia de software
7Extended Thinking — raciocínio profundo sob demanda
8Cenários práticos — escolhendo o produto certo
9Glossário do Módulo 4
Seção 1

O Stack da Anthropic em 2026

A Anthropic não é só o Claude do chat. É um ecossistema de produtos, APIs e ferramentas que cobrem desde o usuário final até o desenvolvedor que constrói sistemas complexos. Entender cada camada é o que permite recomendar e arquitetar soluções adequadas.

📈
A Anthropic em números — Abril 2026

Em fevereiro de 2026, a Anthropic fechou um Series G de US$30 bilhões a uma valuation de US$380 bilhões — a segunda maior rodada privada da história da tecnologia. A receita anualizada chegou a US$14 bilhões, crescendo de US$3bi em meados de 2025. Claude Code sozinho atingiu US$2,5bi em receita anualizada em fevereiro de 2026. Investidores estratégicos: AWS, Google, Microsoft e Nvidia.

Camada 1 — Produto Claude.ai

Interface de chat para usuários finais. Web, iOS, Android e desktop. Onde a maioria das pessoas experimenta Claude pela primeira vez. Planos: Gratuito, Pro (US$20), Max (US$100–200), Team (US$25/usuário), Enterprise (preço customizado).

Camada 2 — Desenvolvimento API + Claude Code

A API é o acesso programático aos modelos — onde desenvolvedores constroem aplicações, automações e agentes. Claude Code é o agente de terminal para engenharia de software. Ambos são pay-as-you-go baseado em tokens.

Camada 3 — Plataforma Anthropic Platform

Conjunto de APIs composicionais para construir agentes em escala: Files API, Batch API, Model Context Protocol (MCP), tool use, computer use e capacidades de extended thinking. Mais contexto nos Módulos 7 e 8.

Como os produtos se relacionam

Usuário final💬Claude.aiChat, Projects, Artefatos, MCP visual, Research
Desenvolvedor⌨️Claude CodeTerminal, codebase completa, testes, deploys
Engenheiro de sistemas🔌API RESTChamadas programáticas, batch, streaming, tools
Arquiteto / CTO🏗️PlataformaAgentes, MCP servers, Files API, multi-agent
⚠️
Separação importante

Ter uma assinatura do Claude.ai Pro não dá créditos na API. São produtos separados com cobranças separadas. A API é paga por token via cartão de crédito, independente do plano de chat. Para desenvolvimento e integração de sistemas, você precisa de uma conta na Anthropic Platform (platform.anthropic.com), não só do claude.ai.


Seção 2

Família Claude 4 — Modelos em Detalhe

Em abril de 2026, a Anthropic lançou o Claude Opus 4.7, mas mantém três tiers principais para produção. Entender as diferenças técnicas — não só o preço — é o que permite fazer routing inteligente e economizar até 80% nos custos de API.

Claude Opus 4.7
claude-opus-4-7 · Lançado Abril 2026 · Novo tokenizador
$5 / $25 por MTok · input / output
Contexto1M tokens (flat rate, sem surcharge)
Output máximo128K tokens
TokenizadorNovo — pode usar até 35% mais tokens que Opus 4.6 no mesmo texto
Ponto forteCoding, agentes de longa duração, raciocínio arquitetural complexo
Extended ThinkingSuportado — tokens cobrados como output padrão
Fast Mode6× o preço padrão ($30/$150) para workloads latência-críticas
Flagship1M contexto128K outputSWE-bench líderNovo tokenizador
Claude Opus 4.6
claude-opus-4-6 · Ainda recomendado para deployments estáveis
$5 / $25 por MTok · mesmo preço do 4.7
Contexto1M tokens (flat rate)
Output máximo128K tokens
TokenizadorAnterior — tokenização mais previsível para deployments existentes
Quando preferir ao 4.7Deployments pinados que não podem arriscar variação de custo de tokenização
SWE-bench Verified80,9% — resolução autônoma de bugs reais em repositórios open-source
Fast ModeSuportado ($30/$150)
Produção estável1M contexto80,9% SWE-bench
Claude Sonnet 4.6
claude-sonnet-4-6 · Recomendado padrão para a maioria dos casos
$3 / $15 por MTok · 40% mais barato que Opus
Contexto1M tokens (flat rate)
Output máximo128K tokens
Extended ThinkingSuportado — "Adaptive Thinking" otimiza automaticamente uso de tokens de raciocínio
Melhor paraUso diário geral, coding, análise, automações, RAG, chat corporativo
VelocidadeMais rápido que Opus — melhor para workloads interativos
Custo realCom caching: efetivamente $0.30/MTok em inputs repetidos (90% off)
Recomendado1M contextoMelhor custo-benefícioAdaptive Thinking
Claude Haiku 4.5
claude-haiku-4-5-20251001 · Para alto volume e latência mínima
$1 / $5 por MTok · 5× mais barato que Opus
Contexto200K tokens
Output máximo64K tokens
Extended ThinkingSuportado
Melhor paraTriagem, classificação, extração de dados, respostas curtas, automações simples em alto volume
VelocidadeO mais rápido da família — resposta quase instantânea em tarefas simples
Com Batch APICai para $0.50/$2.50 — o mais barato de toda a linha
Alto volumeMais rápidoBatch: $0.50/$2.50
🗂️
Depreciações importantes — Abril 2026

Claude Haiku 3 foi depreciado em 19 de abril de 2026. Se você tem workloads nele, migre para Haiku 4.5 ($1/$5 — 4× mais caro, mas dramaticamente mais capaz: 64K output, extended thinking, qualidade superior). Sonnet 3.7 também está depreciado. Opus 4.1 ($15/$75) ainda ativo mas obsoleto — migrar para Opus 4.6 ($5/$25) é uma redução de 67% de custo com ganho de capacidade.


Seção 3

API — Como Funciona, Preços e Autenticação

A API da Anthropic segue o padrão REST com autenticação por chave. O modelo de precificação é por token — o que exige entender bem o que é cobrado para não ter surpresas na fatura.

Sua primeira chamada à API

Chamada básica à API — Python ✓ Produção
import anthropic

# Inicialize o cliente — a API key vem da variável de ambiente
# export ANTHROPIC_API_KEY="sk-ant-..."
client = anthropic.Anthropic()

message = client.messages.create(
    model="claude-sonnet-4-6",
    max_tokens=1024,
    system="Você é um analista financeiro especializado em varejo.",
    messages=[
        {"role": "user", "content": "Analise o DRE abaixo e identifique os 3 maiores riscos."}
    ]
)

print(message.content[0].text)

# Verificando o uso de tokens
print(f"Input: {message.usage.input_tokens} tokens")
print(f"Output: {message.usage.output_tokens} tokens")
Mesma chamada — JavaScript / Node.js Node.js
import Anthropic from '@anthropic-ai/sdk';

const client = new Anthropic();
// API key lida automaticamente de ANTHROPIC_API_KEY

const message = await client.messages.create({
  model: 'claude-sonnet-4-6',
  max_tokens: 1024,
  system: 'Você é um analista financeiro especializado em varejo.',
  messages: [
    { role: 'user', content: 'Analise o DRE abaixo...' }
  ]
});

console.log(message.content[0].text);

Tabela de preços completa — Abril 2026

Modelo Input (MTok) Output (MTok) Cache Write Cache Hit Batch (−50%)
Opus 4.7 NOVO $5.00$25.00$6.25$0.50$2.50 / $12.50
Opus 4.6 $5.00$25.00$6.25$0.50$2.50 / $12.50
Sonnet 4.6 RECOMENDADO $3.00$15.00$3.75$0.30$1.50 / $7.50
Haiku 4.5 $1.00$5.00$1.25$0.10$0.50 / $2.50
Opus 4.1 OBSOLETO $15.00$75.00
💡
Output custa 5× mais que input — sempre

Em todos os modelos Claude, output = 5× o preço de input. Isso tem implicação direta de design: aplicações que geram muito texto de saída (geração de relatórios, código, documentação) têm custo dominado pelo output. Para essas aplicações, limitar o max_tokens e usar instruções de concisão reduz custo diretamente.

Exemplos de custo real — cenários típicos

Chatbot corporativo — Sonnet 4.6 ~$50/mês

5M tokens input + 2M output. Com prompt caching (1M write + 3M hits): custo real com cache ativo. Para tráfego moderado de empresa de médio porte.

Pipeline de análise fiscal — Haiku 4.5 Batch ~$17/mês

20M input + 10M output processados overnight via Batch API. Haiku 4.5 Batch = $0.50/$2.50. Para classificação e extração em alto volume.

Agente de coding — Opus 4.6 com cache ~$80/mês

10M input + 4M output com caching de codebase (2M write + 5M hits). Migrar de Opus 4.1 ($220+/mês) para 4.6 é redução de 63% no mesmo workload.

Parâmetros importantes da API

model
ID do modelo. Use sempre o model string oficial: claude-sonnet-4-6, claude-opus-4-7, claude-haiku-4-5-20251001. Nunca use nomes abreviados — podem ser resolvidos para modelos inesperados.
max_tokens
Limite máximo de tokens no output. Controle de custo direto: se você não precisa de respostas longas, baixar esse valor reduz a fatura. O modelo para ao atingir o limite — não trunca, encerra. Para textos longos: Opus/Sonnet 4.6 suportam 128K output.
temperature
Entre 0 e 1. Default: 1. Para tarefas de análise, extração e código: use 0–0.3. Para criação e brainstorming: 0.7–1. Para classificação crítica: 0 (determinístico).
stream
Boolean. Quando true, retorna tokens em tempo real (Server-Sent Events). Melhora a experiência percebida em UIs interativas — o usuário vê a resposta sendo gerada. Não muda o custo.
tools
Array de definições de ferramentas disponíveis para o modelo. O modelo pode chamar ferramentas como busca na web, execução de código, consultas a APIs externas. Ferramentas client-side são cobradas como tokens normais. Server-side (ex: web search) cobram $10 / 1.000 buscas adicionalmente.

Seção 4 — Reduzindo custos em até 95%

Estratégias de Otimização de Custo

Uma organização que implementa as três estratégias abaixo — Prompt Cache, Batch API e Model Routing — pode reduzir o custo de API em 80–95% em relação a uma implementação ingênua. Em escala, isso representa diferença de dezenas de milhares de dólares por mês.

⚡ Estratégia 1: Prompt Cache — 90% de desconto no input repetido

Economia real: até 90% dos custos de input em workloads com sistema prompt fixo

O Prompt Cache armazena porções do prompt que não mudam entre chamadas — tipicamente o system prompt, documentos de referência e exemplos few-shot. Em chamadas subsequentes, esses blocos são lidos do cache por 10% do custo de input normal (90% de desconto).

TTL (Time-To-Live): 5 minutos por padrão. Cache de 1 hora disponível (a 2× o preço de cache write). Para um chatbot com system prompt de 5K tokens rodando 1.000 conversas/dia, o cache paga o custo de write depois da segunda conversa de cada sessão.

Ativando Prompt Cache — modo automático ✓ Mais simples
message = client.messages.create(
    model="claude-sonnet-4-6",
    max_tokens=1024,
    # cache_control no nível do request — automático
    system=[{
        "type": "text",
        "text": "[SEU SYSTEM PROMPT LONGO AQUI]",
        "cache_control": {"type": "ephemeral"}
    }],
    messages=[
        {"role": "user", "content": mensagem_do_usuario}
    ]
)
📊

Exemplo real: system prompt de 10K tokens com 500 chamadas/dia. Sem cache: 500 × 10K = 5M tokens/dia. Com cache (write 1× + hits 499×): write 10K + hits 4.99M × 0.1 = 509K tokens equivalentes. Economia: 90%.

🔄 Estratégia 2: Batch API — 50% de desconto em processamento assíncrono

Economia real: 50% flat em todos os tokens de qualquer modelo

A Batch API processa requisições de forma assíncrona, com resultados entregues em até 24 horas. Em troca de abrir mão do processamento em tempo real, você obtém 50% de desconto em todos os tokens de input e output, em qualquer modelo.

Casos de uso ideais: processamento noturno de documentos, análise de grandes volumes de dados históricos, geração de conteúdo em lote, avaliações de modelos, re-processamento de bases de dados. Qualquer pipeline que não precisa de resposta imediata.

Submetendo um batch de 1.000 análises 50% mais barato
# Preparando os requests em formato JSONL
requests = []
for i, documento in enumerate(lista_de_documentos):
    requests.append({
        "custom_id": f"doc_{i}",
        "params": {
            "model": "claude-haiku-4-5-20251001",
            "max_tokens": 256,
            "messages": [{
                "role": "user",
                "content": f"Classifique esse documento: {documento}"
            }]
        }
    })

# Submetendo o batch
batch = client.messages.batches.create(requests=requests)
print(f"Batch criado: {batch.id}")

# Verificando status e coletando resultados (depois de horas)
results = client.messages.batches.results(batch.id)

🎯 Estratégia 3: Model Routing — usar o modelo certo para cada tarefa

Economia real: 50–70% em workloads mistos com routing inteligente

A estratégia de maior impacto a longo prazo. Em vez de usar Opus ou Sonnet para tudo, você roteia cada subtarefa para o modelo mais barato que atinge a qualidade necessária.

Distribuição típica em sistemas de produção: 70% Haiku (triagem, classificação, extração simples) + 20% Sonnet (análise, geração de texto, coding padrão) + 10% Opus (raciocínio arquitetural, análises críticas, coding complexo). Em comparação com 100% Sonnet, essa distribuição reduz custo em mais de 50% com qualidade equivalente.

Router simples — classificação de complexidade Avançado
def escolher_modelo(prompt: str, tipo_tarefa: str) -> str:
    # Tarefas simples → Haiku (5× mais barato)
    if tipo_tarefa in ["classificacao", "extracao", "triagem"]:
        return "claude-haiku-4-5-20251001"

    # Estimativa grosseira de complexidade por tamanho
    tokens_estimados = len(prompt.split()) * 1.3

    # Contexto longo ou raciocínio complexo → Opus
    if tokens_estimados > 50000 or tipo_tarefa == "arquitetura":
        return "claude-opus-4-6"

    # Padrão: Sonnet para o resto
    return "claude-sonnet-4-6"
🏆
As três estratégias combinadas

Uma equipe de engenharia que combina Prompt Cache (−90% input repetido) + Batch API (−50% em pipelines assíncronos) + Model Routing (70/20/10 split) pode chegar a um custo efetivo próximo ao de Haiku com qualidade de Sonnet para a maioria das tarefas. Em produção com alto volume, a diferença entre implementar ou não essas estratégias pode chegar a US$50k–200k/ano para organizações de médio porte.


Seção 5

Projects — Contexto Persistente para Trabalho Real

Projects é o recurso do Claude.ai que transforma conversas isoladas em um espaço de trabalho contínuo. Você carrega documentos, define instruções e o Claude mantém esse contexto em todas as conversas dentro do projeto — indefinidamente.

O que um Project contém

Instruções do projeto: equivalente a um system prompt permanente. Define o papel, o tom, as regras e o contexto da organização para todas as conversas daquele projeto.

Arquivos e documentos: PDFs, Word, planilhas, código, textos — carregados uma vez, disponíveis sempre. Limite: 200K tokens por arquivo, até vários arquivos por projeto.

Histórico de conversas: todas as conversas dentro do projeto ficam acessíveis. O modelo não "esquece" o que foi discutido em sessões anteriores do projeto.

Casos de uso de alto impacto

Assistente jurídico interno: carregue toda a legislação relevante + jurisprudência do setor + contratos modelo. O time consulta em linguagem natural.

Especialista de produto: carregue especificações técnicas, backlog, histórico de decisões. Cada conversa tem contexto completo do produto.

Analista de mercado: carregue relatórios setoriais, dados de concorrentes, histórico de análises. Novo relatório sempre tem contexto de todos os anteriores.

Suporte técnico de legado: carregue documentação do sistema COBOL, manuais, histórico de bugs. Devs novos consultam sem precisar de onboarding manual.

Configurando um Project de alta qualidade

Instruções do projeto
Escreva como um system prompt completo (veja Módulo 3): papel, contexto da empresa, comportamento esperado, formato de resposta padrão. Inclua restrições relevantes para o domínio. Exemplo para projeto fiscal: Você é um especialista tributário focado no regime de tributação da empresa X. Baseie-se sempre nos documentos carregados antes de responder. Sinalize com [VERIFICAR] quando não encontrar a informação nos documentos.
Arquivos — o que carregar
Priorize documentos de referência estáveis que serão consultados frequentemente: manuais, políticas, legislação, especificações técnicas, glossários internos. Documentos que mudam com frequência são melhor colados diretamente em cada conversa. Organize arquivos com nomes descritivos — o modelo usa o nome do arquivo como contexto.
Estrutura de projetos
Uma boa prática: um Project por domínio ou equipe, não um por pessoa. Projeto "Fiscal Q1 2026", "Contratos Fornecedores", "Dev — Sistema COBOL". Isso permite que múltiplas pessoas usem o mesmo contexto e que o histórico seja coletivo, não individual.
Memória vs. contexto
Projects ≠ memória. A memória do Claude captura preferências e fatos sobre o usuário entre sessões (como nome, cargo, preferências de formato). O Project carrega contexto documental e histórico de conversas. Ambos complementam — memória personaliza, Project especializa.

Seção 6

Claude Code — O Agente de Engenharia de Software

Claude Code não é um autocomplete de IDE. É um agente que lê sua codebase inteira, entende a arquitetura, escreve código, roda testes, interpreta erros e itera — tudo do terminal, com você supervisionando os diffs. É a ferramenta que redefiniu o ritmo de desenvolvimento em 2025–2026.

🚀
O que torna Claude Code diferente de GitHub Copilot

Copilot opera linha por linha — sugere completions enquanto você digita. É um assistente de código. Claude Codetoda a codebase, entende dependências entre arquivos, pode executar comandos no terminal, rodar a suíte de testes completa e criar um plano de mudanças que abrange múltiplos arquivos simultaneamente. É um agente de engenharia, não um assistente de IDE.

O que Claude Code faz

Lê e navega a codebase: entende a estrutura do projeto, imports, dependências, padrões de código e histórico de commits via git log.

Escreve e modifica código: propõe mudanças em múltiplos arquivos com diffs para revisão linha a linha. Você aprova cada mudança antes de aplicar.

Executa no terminal: roda testes, instala dependências, executa scripts, interpreta erros e itera automaticamente.

Explica e documenta: gera documentação, explica trechos complexos, cria READMEs e changelogs automaticamente.

Instalação e primeiros passos

Requisito: Node.js 18+. Plano Pro ou Max no claude.ai.

# Instalar globalmente
npm install -g @anthropic-ai/claude-code

# Navegar até seu projeto
cd /caminho/do/seu/projeto

# Iniciar uma sessão
claude

# Claude lê o projeto e fica pronto
> Olá! Li 847 arquivos do projeto.
> O que você quer fazer?

Remote session: escaneie o QR code exibido no terminal para controlar a sessão pelo celular — útil para monitorar tarefas longas.

Fluxo típico de trabalho com Claude Code

1📂LeituraClaude mapeia a estrutura do projeto, lê arquivos relevantes, entende o contexto
2💬InstruçãoVocê descreve a tarefa em linguagem natural. Sem necessidade de especificar arquivos.
3🔍PlanoClaude apresenta o plano: quais arquivos vai tocar e por quê. Você pode refinar antes de executar.
4✏️DiffsMudanças propostas em diff colorido, arquivo por arquivo. Você aprova, rejeita ou pede ajuste.
5🧪TestesClaude roda a suíte de testes, interpreta falhas e corrige automaticamente até passar.

Casos de uso mais impactantes

Modernização de sistemas legados (COBOL)

Claude Code entende COBOL — especialmente se você fornecer contexto do sistema nas instruções. Casos de uso reais: análise de lógica de negócio em programas COBOL para documentação; geração de wrappers Python/Java que expõem funcionalidades COBOL via API REST; identificação de dead code e variáveis não utilizadas; refatoração incremental de módulos específicos com testes de regressão.

💡

Dica: carregue a documentação do sistema e o dicionário de dados no início da sessão — Claude usa esse contexto para gerar código mais preciso e com as convenções certas.

CLAUDE.md — o "manual do projeto"

Crie um arquivo CLAUDE.md na raiz do repositório. Claude Code lê esse arquivo automaticamente ao iniciar uma sessão — é seu system prompt para o projeto. Inclua:

Arquitetura: visão geral dos módulos e suas responsabilidades.
Convenções: naming conventions, padrões de código, estrutura de commits.
Comandos: como rodar testes, como fazer deploy, comandos de ambiente.
Restrições: arquivos que não devem ser modificados, dependências críticas.
Contexto de negócio: o que o sistema faz e para quem.

⚠️
Boas práticas de segurança com Claude Code

Claude Code tem acesso real ao seu sistema de arquivos e pode executar comandos no terminal. Boas práticas: sempre revise os diffs antes de aprovar; use --no-auto-commit para impedir commits automáticos; crie um branch separado para sessões de Claude Code (feature/claude-refactor-X); nunca rode em ambientes de produção diretamente. Para operações sensíveis (deploy, migrações de banco), peça ao Claude para descrever o plano e execute você mesmo.


Seção 7

Extended Thinking — Raciocínio Profundo sob Demanda

Extended Thinking é a capacidade de Claude de gerar uma cadeia de raciocínio interna antes de responder — explorando múltiplos ângulos, verificando premissas e se corrigindo antes de entregar a resposta final. É o equivalente a dar mais tempo de reflexão para um problema difícil.

Como funciona tecnicamente

Quando Extended Thinking está ativo, Claude gera blocos de "pensamento" (thinking tokens) que não são exibidos ao usuário por padrão. Esses tokens exploram o problema, testam hipóteses, calculam sub-resultados e verificam a coerência antes de produzir a resposta visível.

Custo: os thinking tokens são cobrados como output tokens padrão do modelo — não há surcharge adicional. O custo extra é simplesmente os tokens de raciocínio intermediário.

Token budget: você define um budget mínimo de 1.024 tokens de raciocínio. Quanto mais complexo o problema, mais o modelo usa do budget. Para problemas simples, o modelo usa poucos tokens de pensamento — Adaptive Thinking (Sonnet 4.6) otimiza isso automaticamente.

Quando usar (e quando não usar)

Use Extended Thinking para: decisões estratégicas multi-critério, problemas matemáticos ou lógicos complexos, análise de arquitetura de sistemas, revisão de código crítico, diagnóstico de bugs difíceis, análise jurídica ou tributária de alta complexidade.

Não use para: tarefas simples (adiciona custo sem benefício), respostas rápidas em chatbots (adiciona latência), classificações e extrações estruturadas (zero-shot é suficiente).

Nunca combine com: instruções de Chain-of-Thought no prompt (redundante — o modelo já está pensando). Deixe o Extended Thinking trabalhar sozinho.

Ativando Extended Thinking via API Problemas complexos
response = client.messages.create(
    model="claude-opus-4-6",  # ou sonnet-4-6
    max_tokens=16000,
    thinking={
        "type": "enabled",
        "budget_tokens": 10000  # mínimo: 1024
    },
    messages=[{
        "role": "user",
        "content": """
Analisando os dados financeiros e operacionais abaixo,
recomende se devemos expandir para SP ou consolidar em CWB.
Considere: ROI, risco operacional, capacidade de equipe e timing de mercado.
[DADOS]
"""
    }]
)

# A resposta inclui thinking blocks + response block
for block in response.content:
    if block.type == "thinking":
        print(f"[Raciocínio interno: {len(block.thinking)} chars]")
    elif block.type == "text":
        print(block.text)  # Resposta final
💡
Adaptive Thinking — a versão inteligente para Sonnet 4.6

O Sonnet 4.6 tem Adaptive Thinking: ele avalia automaticamente a complexidade de cada solicitação e decide quanto raciocínio intermediário é necessário. Para perguntas simples, usa poucos ou nenhum thinking token. Para problemas complexos, usa mais. Isso torna Extended Thinking prático para deployments onde nem toda mensagem é complexa — você paga apenas pelo raciocínio que realmente foi necessário.


Seção 8

Cenários Práticos — Escolhendo o Produto Certo

A escolha entre Claude.ai, a API, Claude Code e as diferentes opções de modelo depende do perfil do usuário, do tipo de tarefa e da escala. Aqui estão os cenários mais comuns com recomendações diretas.

👩‍💼
Gestora de operações — sem código Análise semanal de KPIs + geração de relatório executivo

Crie um Project no Claude.ai com as instruções de análise, o template de relatório e o histórico de metas da empresa. Toda semana, cole os dados brutos numa nova conversa dentro do projeto. Claude mantém contexto de todas as análises anteriores, identifica tendências e gera o relatório no formato esperado. Sem API, sem código — 100% via interface.

Claude.ai ProProjectsSonnet 4.6
👨‍💻
Desenvolvedor — modernização de legado Refatoração incremental de módulos COBOL com geração de testes

Configure um CLAUDE.md com a arquitetura do sistema, dicionário de dados e padrões de código. Use Claude Code para analisar um módulo por vez: primeiro peça um relatório de entendimento, depois proponha a refatoração em Python, depois gere testes de regressão comparando outputs do COBOL e Python. Aprove cada diff individualmente. Custo estimado: US$40–80/mês para sessões intensas no plano Pro.

Claude Code (Pro)CLAUDE.mdOpus 4.6
🏗️
Arquiteto de soluções — construindo produto Assistente de atendimento ao cliente via API com RAG em documentação interna

Use a API com Sonnet 4.6 + Prompt Cache no system prompt (documentação do produto carregada via Files API). Routing: Haiku para triagem e intenção, Sonnet para respostas elaboradas. Batch API para relatórios de análise de tickets overnight. Com essas otimizações: custo estimado de US$30–80/mês para 10k interações/dia, versus US$300+ sem otimização.

API AnthropicSonnet 4.6 + Haiku 4.5Prompt CacheBatch API
🔬
Analista estratégico — decisão de alto impacto Análise de viabilidade de aquisição com múltiplos critérios e dados financeiros extensos

Use Claude.ai com Opus 4.6 e Extended Thinking ativado (disponível na interface Pro). Carregue todos os documentos financeiros, relatórios de due diligence e dados de mercado no Project. Estruture a análise em prompt chaining: primeiro contexto financeiro → análise de risco → comparação com alternativas → recomendação final. Extended Thinking garante que premissas sejam verificadas antes da conclusão.

Claude.ai Pro ou MaxOpus 4.6Extended ThinkingProjects
🏢
CTO / Diretor de TI — implantação corporativa Deploy de assistentes especializados para múltiplas equipes da empresa

Plano Team (US$25/usuário/mês) para equipes de 5–50 pessoas com Projects compartilhados por departamento. Para escala maior ou requisitos de compliance: Enterprise com SSO, audit logging, data residency em US-only (1.1× premium) e SLA garantido. Para desenvolvedores do time: adicionar Claude Code Premium ($150/assento/mês) para os engenheiros que vão usar mais intensamente.

Claude.ai TeamClaude Code PremiumAPI Corporativa

Seção 9 — Referência

Glossário do Módulo 4

Termos técnicos e conceitos introduzidos neste módulo sobre o ecossistema Anthropic.

MTokUnidade de preço
Milhão de tokens. Unidade padrão de precificação da API da Anthropic. Sonnet 4.6 custa $3/MTok de input e $15/MTok de output. Uma conversa típica de suporte ao cliente usa ~2K tokens input + 500 output — ou seja, cerca de $0.006 + $0.0075 = ~US$0.01 por interação.
Prompt CacheOtimização
Recurso que armazena porções estáticas do prompt (system prompt, documentos, exemplos) e as reutiliza em chamadas subsequentes por 10% do preço normal de input. Cache write: 1.25× o preço base (custo único). Cache hit: 0.1× (90% de desconto). TTL padrão: 5 minutos. Cache de 1 hora disponível por 2× o write.
Batch APIProcessamento
Submissão de múltiplas requisições para processamento assíncrono. Resultados em até 24 horas. Desconto fixo de 50% em todos os tokens de qualquer modelo. Ideal para pipelines que não precisam de resposta em tempo real: análise de documentos, geração de conteúdo em volume, avaliações de modelos.
Model RoutingEstratégia
Prática de direcionar cada tipo de tarefa para o modelo mais barato que atinge a qualidade necessária. Distribuição típica: Haiku (triagem/extração), Sonnet (uso geral), Opus (raciocínio complexo). Uma distribuição 70/20/10 (Haiku/Sonnet/Opus) pode reduzir custos em 50%+ vs. usar apenas Sonnet.
Extended ThinkingCapacidade
Modo onde Claude gera raciocínio interno (thinking tokens) antes da resposta final. Melhora dramaticamente problemas complexos. Tokens de raciocínio são cobrados como output padrão. Budget mínimo: 1.024 tokens. Não combine com Chain-of-Thought no prompt — redundante.
Adaptive ThinkingCapacidade
Versão inteligente do Extended Thinking disponível no Sonnet 4.6. O modelo avalia automaticamente a complexidade de cada solicitação e decide quanto raciocínio intermediário é necessário. Para problemas simples, usa poucos thinking tokens. Otimiza custo automaticamente.
Fast ModeParâmetro
Modo de inferência de baixa latência disponível para Opus 4.6 e 4.7. Custa 6× o preço padrão ($30/$150 por MTok). Para workloads onde a latência é crítica e custo não é restrição primária — ex: trading, respostas de emergência, UX de tempo real de alta criticidade.
CLAUDE.mdArquivo de configuração
Arquivo de texto na raiz de um repositório que Claude Code lê automaticamente ao iniciar. Equivalente a um system prompt para o projeto — define arquitetura, convenções, comandos, restrições e contexto de negócio. Quanto mais rico o CLAUDE.md, melhor o agente entende o projeto desde a primeira mensagem.
Files APIInfraestrutura
API da Anthropic para upload e gerenciamento de arquivos que são referenciados em múltiplas chamadas. Permite carregar documentos grandes uma vez e referenciá-los por ID em várias requisições — sem re-enviar o conteúdo a cada chamada. Integra com Prompt Cache para máxima eficiência.
Model StringIdentificador
O identificador exato do modelo na API. Sempre use o model string completo: claude-sonnet-4-6, claude-opus-4-7, claude-haiku-4-5-20251001. Nunca use aliases abreviados — podem ser mapeados para modelos inesperados quando modelos novos são lançados.
StreamingModo de resposta
Quando stream=true na API, os tokens são retornados em tempo real via Server-Sent Events (SSE) à medida que são gerados. Melhora a experiência percebida em UIs interativas — o usuário vê a resposta sendo "digitada". Não altera o custo por token.
inference_geoParâmetro
Parâmetro que força processamento exclusivamente em servidores nos EUA (US-only inference). Usado para conformidade com políticas de data residency. Adiciona 1.1× (10%) em todos os tokens de Opus 4.6+ . Para a maioria das empresas brasileiras, o routing global padrão é suficiente e mais barato.

E AGORA?

Módulo 5: Estado da IA em 2026

Um mapa do momento atual: onde estamos na curva de desenvolvimento, o que mudou nos últimos 18 meses, quais capacidades emergiram, o que ainda não funciona — e o que vem por aí.

CONTINUAR PARA O MÓDULO 5 →