M5 · Estado da IA em 2026

Seção 01 · Contexto

Na curva de adoção

A IA generativa está sendo adotada mais rápido do que qualquer tecnologia anterior. Mais rápido que a internet, os smartphones e os PCs. Mas velocidade não é uniformidade — diferentes setores, países e perfis profissionais estão em pontos radicalmente distintos da curva.

📈

Dado-chave do Stanford AI Index 2026

O investimento global em IA atingiu US$ 581 bilhões em 2025 — mais que o dobro dos US$ 253 bilhões de 2024, e superando o recorde anterior de US$ 360 bilhões de 2021. O setor gera receita mais rápido do que qualquer boom tecnológico anterior.

$581B

Investimento global IA 2025

Dobrou em 1 ano

38,3%

Humanity's Last Exam (top modelo)

Era 8,8% em 2025 — subiu 4× em 12 meses

66%

OSWorld — tarefas autônomas em PC

Era ~12% em 2024. Humano: ~72%

≈99%

SWE-Bench Verified (eng. de software)

Era ~60% em 2024. Saturado.

Adoção vs. tecnologias anteriores

🖥️

PC Pessoal

Levou ~15 anos para penetrar metade dos lares americanos (1980s–1995). Curva de adoção suave e gradual, limitada por custo de hardware.

🌐

Internet

Atingiu 50% de penetração nos EUA em ~10 anos (1995–2005). Acelerada por banda larga. Transformou comunicação e comércio.

🤖

IA Generativa

ChatGPT atingiu 100M de usuários em 60 dias — a adoção mais rápida da história. Em 2026, estimativas apontam ~1 bilhão de usuários ativos de ferramentas de IA.

⚠️

A armadilha do Hype Cycle

Velocidade de adoção ≠ maturidade. Muitas empresas estão no pico da "curva de expectativas infladas" — usam IA para casos simples e concluem que transformação é fácil, antes de descobrir o "vale da desilusão" em sistemas complexos e de missão crítica.

Seção 02 · Histórico

O que mudou nos últimos 18 meses

De outubro de 2024 a abril de 2026 houve mais avanços do que nos 3 anos anteriores combinados. Reasoning, agentes autônomos e multimodalidade deixaram de ser demonstrações de laboratório e viraram APIs em produção.

OUT
2024

Claude 3.5 Sonnet + Computer Use público

Anthropic libera Computer Use em beta — pela primeira vez um modelo comercial pode operar um PC visualmente. GPT-4o ganha suporte a voz em tempo real.

NOV
2024

OpenAI o1 / o3 — raciocínio encadeado

Modelos com "chain-of-thought" interno chegam ao mercado. Diferença entre velocidade e precisão: o3 atinge 87% em benchmark de matemática de olimpíada.

JAN
2025

DeepSeek R1 — choque de eficiência

Lab chinês lança modelo open-source que iguala GPT-4o treinado com fração do custo. Derruba ações da Nvidia em 1 dia (−17%). Prova que a vantagem americana em custo de treinamento não é permanente.

MAR
2025

Claude 3.7 Sonnet — Extended Thinking

Anthropic lança raciocínio explícito configurável, com 200K tokens de contexto. Torna-se referência em coding e análise técnica.

MAI
2025

GPT-5 + Claude Code GA

OpenAI lança GPT-5 unificando os modelos Codex. Claude Code sai de preview para GA — agentes de coding autônomo viram mercado real. Gemini 2.5 Pro crava contexto de 1M tokens.

AGO
2025

EU AI Act — GPAI rules em vigor

Segunda fase do AI Act entra em vigor: fornecedores de modelos de propósito geral (como GPT, Claude, Gemini) precisam publicar documentação de treinamento e respeitar copyright. Prazo final: agosto 2026.

OUT
2025

Modelos de vídeo e áudio em produção

Runway Gen-4, Kling 3.0, Veo 3 chegam a qualidade broadcast. ElevenLabs lança vozes em 32 idiomas com emoção. Barreira criativa de custo colapsa.

FEV
2026

Claude 4 Family + Gemini 3 Pro

Opus 4.6 com Adaptive Thinking, Sonnet 4.6 como workhorse. Google lança Gemini 3.1 Pro com 77% no ARC-AGI-2, dobro da versão anterior. Corrida entre Anthropic, Google, OpenAI e xAI se intensifica.

ABR
2026

Stanford AI Index 2026 + Humanity's Last Exam: 38%

Relatório anual confirma aceleração. HLE sobe de 8,8% para 38,3% em 12 meses. Arena Elo mostra empate técnico entre Anthropic, xAI, Google e OpenAI. Competição se desloca para custo, confiabilidade e uso real.

Seção 03 · Panorama

Principais modelos 2025–2026

O mercado convergiu para um oligopólio técnico: 4-5 labs dominam os benchmarks, mas as margens são tão pequenas que a diferenciação real é custo, latência e integração.

🏆

Arena Elo — Março/Abril 2026

Anthropic (1.503) · xAI (1.495) · Google (1.494) · OpenAI (1.481) · Alibaba (1.449) · DeepSeek (1.424). Separação de apenas ~80 pontos entre primeiro e sexto lugar — o menor gap da história.

Modelo	Lab	SWE-Bench	GPQA Diamond	ARC-AGI-2	HLE	Contexto	Preço (input/MTok)
GPT-5.5 NEW	OpenAI	78,2%	~88%	85%	~38%	128K	$2,50
Gemini 3.1 Pro NEW	Google	78,8%	94,3%	77,1%	~36%	2M	$2,00
Claude Opus 4.6	Anthropic	80,8%	87-89%	~70%	38,3%	200K	$15,00
Grok 4.20	xAI	~76%	~87%	~68%	~35%	128K	$3,00
Llama 4 Scout	Meta (open)	~65%	~78%	~45%	~25%	10M	Free (self-host)
DeepSeek V3.2	DeepSeek (open)	~70%	~82%	~55%	~28%	128K	$0,28
Qwen 3.5 9B	Alibaba (open)	—	81,7%	—	—	128K	$0,10

💡

Interpretação consultiva

Para 90% dos casos de uso empresariais, Sonnet 4.6 (Anthropic) ou Gemini 3.1 Flash são a escolha ideal em custo-benefício. Opus 4.6 e GPT-5.5 fazem sentido apenas para tarefas de raciocínio extremamente complexo. DeepSeek V3.2 tem custo 50× menor que Opus com ≈85% da capacidade — escolha real para volume.

Seção 04 · Métricas

Benchmarks: o que medem (e o que escondem)

Todo número de benchmark precisa de contexto. MMLU está saturado. SWE-Bench virou obrigatório. ARC-AGI-2 é o mais honesto sobre raciocínio genuíno. Mas nenhum prediz desempenho em produção.

Benchmarks principais e status atual

MMLU (conhecimento geral)

93% 🔴

SATURADO — diferença entre modelos é ruído estatístico

SWE-Bench Verified (código)

~80%

GPQA Diamond (PhD science)

94% 🔴

Gemini 3.1 Pro lidera — quase saturado

Humanity's Last Exam (HLE)

38%

→ Humano especialista

~90%

ARC-AGI-2 (raciocínio fluido)

85% 🏆

→ Humano médio

60%

OSWorld (autonomia em PC)

66%

→ Humano

~72%

🚨

O Gap Benchmark → Produção

Análise de 2026 mostra um gap de 37% entre scores de benchmark e desempenho real em sistemas agênticos corporativos. Custo varia 50× para precisão similar. Benchmark é filtro, não veredicto — avalie o que você realmente vai deployar.

Como interpretar benchmarks com clientes

❌ Interpretação ingênua

"O modelo X tem 94% em GPQA, então é melhor para qualquer coisa técnica do que o Y com 89%."

✅ Interpretação consultiva

"GPQA mede PhD-level science. Para o seu caso de análise fiscal, o diferencial relevante é SWE-Bench + latência + custo por chamada no seu volume esperado."

Seção 05 · Realidade

O que ainda não funciona bem

"Jagged intelligence" — inteligência irregular. Modelos de 2026 resolvem problemas de olimpíada de matemática mas falham em ler relógios analógicos. Entender onde a IA ainda tropeça é tão importante quanto saber onde ela brilha.

⏰ Percepção visual básica

FALHA

ClockBench 2026: até o melhor modelo (GPT-5.4) acerta um relógio analógico em apenas 50% das vezes. Claude Opus 4.6: 8,9% de acerto. O problema é que "a linguagem carrega o peso" mesmo em tarefas multimodais — o modelo ignora pistas visuais.

🤖 Robótica física

FALHA

Robôs domésticos completam apenas 12% das tarefas do lar. Em laboratório controlado (RLBench), chegam a 89% — mas o mundo real é imprevisível. Físico é muito mais difícil que digital.

🧮 Matemática visual

PARCIAL

Modelos resolvem problemas matemáticos complexos em texto com >90% de acerto, mas degradam significativamente quando os mesmos problemas são apresentados como imagens (puzzles visuais, diagramas). Raciocínio espacial continua problemático.

🌍 Física intuitiva

FALHA

IntPhys 2 (benchmark de física intuitiva em vídeo): modelos performam apenas marginalmente acima do acaso. Saber se um vídeo é "fisicamente plausível" é trivial para humanos e difícil para LLMs sem experiência no mundo físico.

📅 Datas e calendários

PARCIAL

Combinações de linguagem + data/calendário são suscetíveis a erros. Modelos frequentemente ignoram informações temporais explícitas se contradizem padrões do treinamento. Calcular "qual era a terceira sexta-feira de fevereiro de 1987" ainda varia muito.

⚖️ Domínios profissionais complexos

PARCIAL

Direito e finanças: nenhum modelo domina o campo ainda. GDPval (avaliação com profissionais reais de 14+ anos) mostra que em estética Claude se destaca, mas em precisão jurídica nenhum modelo é confiável sem supervisão humana.

🔒 Consistência longa

PARCIAL

Em conversas e agentes de longa duração, modelos "esquecem" instruções do início, contradizem decisões anteriores e perdem o fio de raciocínio. Janela de contexto grande ≠ atenção uniforme ao longo do contexto.

🎯 Calibração de confiança

PARCIAL

Modelos frequentemente expressam igual confiança em respostas certas e erradas. Alucinações confiantes (hallucinations with high confidence) continuam sendo o principal risco em casos de uso de alto stakes como medicina e compliance.

Seção 06 · Debate

Debate AGI: onde estamos?

AGI (Artificial General Intelligence) é o termo mais debatido e menos definido da indústria. Cada lab tem uma definição, e cada definição convenientemente posiciona seu próprio produto como próximo de atingi-la. Vamos colocar dados na mesa.

AGI Progress Estimate — GPT-5 (pesquisa Center for AI Safety, 2025)

57%

0% — Ferramenta básica 50% — Marco intermediário 100% — AGI (def. CAIS)

Framework: 10 capacidades humanas (raciocínio, memória, linguagem, visão, escrita...) ponderadas igualmente. GPT-4: 27%. GPT-5: 57%.

Podemos ter algo semelhante a 'um país de gênios em um datacenter' já em 2026.

Dario Amodei (CEO Anthropic) — previsão 2024, progressivamente revisada

A IA será mais inteligente que um Prêmio Nobel em muitas disciplinas até o final de 2026 ou 2027.

Jack Clark (co-fundador Anthropic), setembro 2025

Os 3 conceitos que você precisa separar

🧠

AGI

Artificial General Intelligence — sistema que iguala ou supera humanos em qualquer tarefa cognitiva. Não existe consenso se ou quando será atingido. GPT-5 está em ~57% por uma definição rigorosa.

🚀

ASI

Artificial Superintelligence — sistema que supera humanos em todas as dimensões cognitivas por ordens de magnitude. Conceito de longo prazo. Mayoridade dos pesquisadores o coloca como décadas à frente — se possível.

🎯

Alignment

Garantir que sistemas de IA poderosos ajam de acordo com valores humanos. Problema técnico e filosófico não resolvido. Anthropic e OpenAI têm equipes dedicadas — mas não há solução validada para sistemas muito acima do atual.

🔬

Capability Overhang — o risco real

Modelos já treinados podem ter capacidades ocultas que ainda não foram descobertas ou elicitadas. Quando novas técnicas de prompting ou scaffolding surgem, capacidades "dormentes" emergem sem novo treinamento. Este é um dos principais riscos para o debate de safety: não sabemos o que modelos existentes "sabem".

O que os dados dizem sobre ARC-AGI-2 (Abril 2026)

GPT-5.5

85% 🏆

GPT-5.4 Pro

83,3%

Gemini 3.1 Pro

77,1%

Humano médio

60%

ARC-AGI-3 (novo, sem regras)

<1%

ARC-AGI-3: jogo sem regras explícitas, exige raciocínio fluido puro. Modelos frontier: <1%. Humanos: >60%.

🎓

Posição consultiva

Para clientes: AGI é irrelevante para decisões de compra de 2026. O que importa é: o modelo resolve o seu problema específico com confiabilidade e custo aceitáveis? Deixe o debate filosófico para os labs — você está pagando por ROI.

Seção 07 · Mercado de Trabalho

Impacto no mercado de trabalho

A pergunta não é "a IA vai roubar empregos?" — é "quais tarefas serão automatizadas, quais serão aumentadas, e quem será deslocado ou elevado?" Os dados de 2025-2026 mostram um impacto real, mas mais matizado do que o hype sugere.

+2,7×

Publicações sobre IA em drug discovery

Vs. 2 anos atrás — setor mais acelerado

≈100%

SWE-Bench Verified 2025

Era 60% em 2024 — coding assistido transformado

37%

Gap benchmark → produção em agentes

Significa que humano de supervisão ainda é crítico

450K

Viagens semanais Waymo

5 cidades EUA — mobilidade autônoma em escala real

Setores por nível de disrupção (visão 2026)

💻 Desenvolvimento de Software ALTO

Coding assistido ≈ padrão universal
Code review automatizado
Documentação e testes gerados por IA
Junior devs precisam reposicionamento
Senior+ com IA produz 3–5× mais

📝 Redação & Conteúdo ALTO

Conteúdo de marketing em escala
Tradução profissional transformada
Jornalismo de dados automatizado
Copywriting: co-piloto universal
Diferencial: voz autoral + estratégia

🏥 Saúde & Medicina MÉDIO

Diagnóstico por imagem: IA como 2ª opinião
Drug discovery acelerado (2,7× publicações)
Registro clínico automatizado
Regulação e responsabilidade ainda bloqueiam
Médico + IA > médico ou IA sozinhos

⚖️ Direito & Compliance MÉDIO

Due diligence e revisão de contratos: alta automação
Pesquisa jurídica acelerada
Aconselhamento estratégico: humano ainda lidera
Nenhum modelo domina julgamentos reais ainda
Foco: paralegais e advogados júnior mais impactados

🧮 Contabilidade & Fiscal MÉDIO

Conciliação e classificação automatizadas
Geração de relatórios de conformidade
Análise de anomalias fiscal em escala
Interpretação de legislação: co-piloto útil, não autônomo
Diferencial: julgamento sobre casos-borda

🚚 Logística & Supply Chain MÉDIO

Roteirização e previsão de demanda: transformadas
Controle de estoque preditivo
Robótica em armazéns (mas 12% físico...)
Gestão de fornecedores: documentação automática
Decisão estratégica de sourcing: humano

🎨 Design & Criação ALTO

Design de peças únicas: IA como co-criador
Produção em escala: altamente automatizada
Identidade de marca: ainda demanda humano
Vídeo e áudio: qualidade broadcast com IA
Diferencial: direção criativa e estratégia

📊 Análise de Dados & BI ALTO

Análises ad-hoc em linguagem natural
Geração de dashboards por descrição
Interpretação de anomalias
Data cleaning: altamente automatizado
Diferencial: perguntas estratégicas certas

🔧 Manutenção Industrial / Field BAIXO

Diagnóstico de falhas com IA: útil
Manuais e procedimentos gerados
Robótica física: apenas 12% de tarefas
Trabalho manual especializado: mais protegido
Augmentação via AR + IA é o caminho

🎓

A habilidade que mais importa em 2026

Não é saber programar IA. É saber fazer as perguntas certas. Em qualquer setor, o profissional que consegue decompor problemas complexos em tarefas que IA pode executar — e validar os resultados com julgamento de domínio — se torna multiplicador de valor. Essa consultora aprende isso neste cursinho.

Seção 08 · Governança

Regulação global: o mapa de 2026

O mundo da regulação de IA está divergindo: UE com abordagem baseada em risco e compliance rigoroso, EUA com mosaico de leis estaduais e executive orders, e Brasil com seu PL ainda em construção. Entender o mapa evita surpresas caras para clientes.

Jurisdição	Abordagem	Status (Abr 2026)	O que afeta na prática
🇪🇺 União Europeia EU AI Act	Risk-based	Fev/25: banidos Ago/25: GPAI Ago/26: high-risk	HR, recrutamento, scoring de crédito, sistemas de saúde. Multas até €15M ou 3% do faturamento global. Digital Omnibus propõe adiamento de algumas obrigações.
🇺🇸 Estados Unidos Federal + Estadual	Setorial	Dez/25: Executive Order	EO de dez/2025: framework federal mínimo para limitar divergência estadual. Califórnia, NY, Colorado avançam independentemente. Sem lei federal unificada ainda.
🇧🇷 Brasil PL 2338/2023	Risk-based	Em comissão	Aprovado no Senado em dez/2024, em comissão especial em 2025. Espelha a UE: proíbe "risco excessivo", responsabilidade objetiva, LGPD complementa. ANPD potencial autoridade supervisora.
🇨🇳 China Vertical / Segurança	Controle	Jan/26: Cybersec	Foco em segurança estatal e conteúdo. Jan/2026: emendas de cibersegurança com punições imediatas sem aviso. Conteúdo AI-gerado: watermark + metadados obrigatórios.
🇯🇵 Japão AI Promotion Act	Innovation-first	Mai/25: aprovado	Approach mais leve: princípios, advertências, sem punições duras. Pressão reputacional como mecanismo. Visa adoção com responsabilidade, sem enforcement agressivo.
🇬🇧 Reino Unido	Setorial	Sem lei central	Reguladores setoriais (FCA, CMA, ICO) aplicam regras existentes ao contexto de IA. Proposta de responsabilidade para desenvolvedores em discussão. Postura pós-Brexit: diferente da UE.

EU AI Act — linha do tempo para clientes

FEV
2025

✅ Fase 1 — Banimentos em vigor

Sistemas de "risco inaceitável" proibidos: reconhecimento de emoção no trabalho, scoring social biométrico, vigilância em massa. Obrigatoriedade de AI literacy nas organizações europeias.

AGO
2025

✅ Fase 2 — GPAI rules

Fornecedores de modelos de propósito geral (OpenAI, Anthropic, Google) precisam publicar documentação de treinamento, respeitar copyright, e modelos de "risco sistêmico" devem reportar incidentes à AI Office.

AGO
2026

⏳ Fase 3 — High-risk completo (em risco de atraso)

Sistemas de alto risco (RH, crédito, saúde, infraestrutura crítica) precisam de: documentação técnica, testes de bias, supervisão humana, registro na EU. Digital Omnibus pode atrasar esta fase até 2027-2028 por falta de padrões técnicos.

🇧🇷

Brasil: o que monitorar

PL 2338/2023 segue o modelo europeu de risco. LGPD já afeta sistemas de IA que tratam dados pessoais. Organizações brasileiras que exportam para a UE precisam se preparar para o EU AI Act agora — e o PL nacional deve chegar com exigências similares. Quem construir governança para a UE estará adiantado no Brasil.

Seção 09 · Futuro próximo

O que vem por aí: 2026–2027

Previsões em IA têm prazo de validade curto — modelos de há 18 meses já são obsoletos. Mas existem tendências estruturais com momentum suficiente para apostar com confiança.

🤖 Agentes autônomos em produção ALTA CERTEZA

OSWorld passou de 12% para 66% em 1 ano — falta ~6 pontos para parity humana em tarefas de PC. Espere agentes de automação corporativa (RPA + IA) substituindo fluxos de trabalho inteiros, não apenas tarefas. Human-in-the-loop: não vai sumir, vai se tornar raro para ações reversíveis.

💰 Comoditização de modelos frontier ALTA CERTEZA

Com Arena Elo separando os top-5 por apenas ~80 pontos, a competição se desloca para custo, latência e integração. Espere preços caindo 40-70% nos próximos 18 meses (tendência histórica desde GPT-3). Modelos menores e especializados vão dominar a maioria dos casos de uso.

🧠 Raciocínio persistente e memória MÉDIA CERTEZA

Extended Thinking (Anthropic) e equivalentes consolidam o paradigma de "pensar antes de responder". Próximo passo: agentes que constroem memória semântica ao longo de meses. Modelos que "lembram" de contexto de projetos anteriores sem re-injeção manual.

📊 Avaliação e evals como competência ALTA CERTEZA

2026 é o ano em que times de AI precisam investir pesado em avaliação e monitoramento. Gap de 37% entre benchmark e produção significa que qualidade precisa ser medida continuamente — não apenas no lançamento. Evals são o novo controle de qualidade.

⚡ Física e robótica: próxima fronteira BAIXA CERTEZA (curto)

12% de tarefas domésticas é frustrante para os labs — mas aceleração está vindo. Figure, Boston Dynamics, Tesla Bot estão todos em escala de produção. 2027-2028 é o horizonte realista para robótica em ambientes industriais controlados.

🌐 Multi-agent por padrão MÉDIA CERTEZA

Sistemas com um único agente LLM estão sendo substituídos por orquestrações multi-agente onde modelos especializados colaboram. Padrão Supervisor-Worker se torna default para pipelines empresariais. OpenAI Operator, Claude Cowork e Google Mariner provam o modelo.

🔒 Safety como diferencial competitivo MÉDIA CERTEZA

Com EU AI Act em vigor, compliance não é custo — é vantagem. Empresas com governança de IA madura chegam a novos mercados primeiro. Anthropic's Constitutional AI e interpretabilidade (mecanistic interpretability) devem gerar diferencial técnico crescente.

🇨🇳 Convergência EUA-China ALTA CERTEZA

DeepSeek V3.2 e Alibaba Qwen 3.5 provam que o gap técnico entre labs americanos e chineses está fechando. Com preços 50-100× menores, modelos chineses open-source vão pressionar preços globalmente — e complicar controles de exportação de chips.

🎯

Síntese consultiva: o que monitorar nos próximos 12 meses

Regulation: PL brasileiro + EU AI Act high-risk deadline (ago/2026). Técnico: ARC-AGI-3 scores — indicador mais honesto de raciocínio genuíno. Mercado: queda de preços de frontier models — quanto e quando. Agentes: OSWorld passando humanos em 2026 ou 2027.

Seção 10 · Referência

Glossário do Módulo 5

Termos introduzidos neste módulo. Mantenha à mão para consultorias — clientes adoram quando você usa a terminologia certa no momento certo.

AGI — Artificial General Intelligence

Sistema de IA capaz de realizar qualquer tarefa cognitiva que um humano consegue fazer, com qualidade equivalente ou superior. Não existe ainda; definição varia por lab e pesquisador.

ASI — Artificial Superintelligence

Sistema de IA que supera humanos em todas as dimensões cognitivas por ordens de magnitude. Conceito teórico, sem previsão consensual de quando (ou se) ocorreria.

Alignment

Campo de pesquisa focado em garantir que sistemas de IA poderosos ajam de acordo com valores e intenções humanas. Problema técnico e filosófico central para safety de IA avançada.

Frontier Model

Modelos de IA no estado da arte em desempenho — os mais capazes disponíveis em um dado momento. Ex: Claude Opus 4.6, GPT-5.5, Gemini 3.1 Pro em abril 2026.

Capability Overhang

Capacidades latentes em modelos existentes que ainda não foram descobertas ou elicitadas. Quando novas técnicas surgem (prompts, scaffolding), capacidades "dormentes" emergem sem novo treinamento.

Jagged Intelligence

Perfil de capacidades irregular dos LLMs: excelentes em tarefas complexas (olimpíadas de matemática) mas falham em tarefas simples (ler relógio). Não há inteligência uniforme.

Benchmark Saturation

Quando um benchmark deixa de ser útil para diferenciar modelos porque todos já atingem scores próximos do máximo. MMLU está saturado (88-93%). Novos benchmarks são criados ciclicamente.

Arena Elo

Sistema de ranking de LLMs baseado em comparações cegas lado a lado por usuários humanos (Chatbot Arena). Considerado mais próximo da preferência real do que benchmarks automatizados.

Humanity's Last Exam (HLE)

Benchmark com 2.500 perguntas criadas por especialistas de domínio, projetado para ser difícil para IA. Em 2025: top modelo 8,8%. Em 2026: 38,3%. Humano especialista: ~90%.

ARC-AGI-2

Benchmark de raciocínio fluido com puzzles visuais sem regras explícitas. Mede inteligência genuína vs. memorização de padrões. Humano médio: 60%. Top IA: 85% (GPT-5.5, abr/2026).

OSWorld

Benchmark de autonomia em computadores — agentes controlam um PC real e completam tarefas em ambientes de SO. Em 2024: ~12%. Em 2026: 66%. Humano: ~72%.

Safety (AI Safety)

Campo focado em garantir que sistemas de IA sejam seguros, confiáveis e não causem danos imprevistos. Inclui robustez técnica, interpretabilidade, alinhamento e governança.

EU AI Act

Primeira regulação abrangente de IA do mundo, da União Europeia. Classifica sistemas por risco (inaceitável/alto/limitado/mínimo) com obrigações crescentes. Em vigor gradualmente de fev/2025 a ago/2027.

PL 2338/2023 (Brasil)

Projeto de Lei brasileiro de IA, aprovado no Senado em dez/2024. Espelha abordagem europeia de risco. Em comissão especial em 2025. ANPD potencial autoridade supervisora.

GPAI (General Purpose AI)

No contexto do EU AI Act: modelos de IA de propósito geral como GPT, Claude, Gemini. Sujeitos a regras específicas de transparência e documentação desde agosto 2025.

Human-in-the-Loop (HITL)

Padrão de design onde humanos supervisionam, validam ou aprovam decisões de sistemas de IA — especialmente em ações de alto impacto ou irreversíveis. Requisito regulatório para sistemas de alto risco.

Eval (Evaluation)

Processo sistemático de avaliar a qualidade e desempenho de um sistema de LLM em tarefas específicas. Fundamental para produção: gap de 37% entre benchmark e performance real em agentes.

Deployment Gap

Diferença entre performance de um modelo em benchmarks controlados e sua performance em aplicações reais de produção. Em 2026, estimado em 37% para sistemas agênticos corporativos.

Tags — conceitos do módulo

Estado da IAem 2026

📋 Conteúdo

Na curva de adoção

Dado-chave do Stanford AI Index 2026

Adoção vs. tecnologias anteriores

PC Pessoal

Internet

IA Generativa

A armadilha do Hype Cycle

O que mudou nos últimos 18 meses

Claude 3.5 Sonnet + Computer Use público

OpenAI o1 / o3 — raciocínio encadeado

DeepSeek R1 — choque de eficiência

Claude 3.7 Sonnet — Extended Thinking

GPT-5 + Claude Code GA

EU AI Act — GPAI rules em vigor

Modelos de vídeo e áudio em produção

Claude 4 Family + Gemini 3 Pro

Stanford AI Index 2026 + Humanity's Last Exam: 38%

Principais modelos 2025–2026

Arena Elo — Março/Abril 2026

Interpretação consultiva

Benchmarks: o que medem (e o que escondem)

Benchmarks principais e status atual

O Gap Benchmark → Produção

Como interpretar benchmarks com clientes

O que ainda não funciona bem

⏰ Percepção visual básica

🤖 Robótica física

🧮 Matemática visual

🌍 Física intuitiva

📅 Datas e calendários

⚖️ Domínios profissionais complexos

🔒 Consistência longa

🎯 Calibração de confiança

Debate AGI: onde estamos?

Os 3 conceitos que você precisa separar

AGI

ASI

Alignment

Capability Overhang — o risco real

O que os dados dizem sobre ARC-AGI-2 (Abril 2026)

Posição consultiva

Impacto no mercado de trabalho

Setores por nível de disrupção (visão 2026)

A habilidade que mais importa em 2026

Regulação global: o mapa de 2026

EU AI Act — linha do tempo para clientes

✅ Fase 1 — Banimentos em vigor

✅ Fase 2 — GPAI rules

⏳ Fase 3 — High-risk completo (em risco de atraso)

Brasil: o que monitorar

O que vem por aí: 2026–2027

Síntese consultiva: o que monitorar nos próximos 12 meses

Glossário do Módulo 5

M6 · Arquivos de Contexto e Memória de Sistema

Estado da IA
em 2026