Módulo 5 · Cursinho de IA

Estado da IA
em 2026

Onde realmente estamos? O que os benchmarks dizem (e omitem), o debate AGI, o impacto no mercado de trabalho, e o mapa regulatório global — com dados de abril 2026.

📊 Stanford AI Index 2026 🏁 Benchmarks reais 🤖 Debate AGI ⚖️ EU AI Act 🇧🇷 PL Brasil 💼 Mercado de trabalho
Seção 01 · Contexto

Na curva de adoção

A IA generativa está sendo adotada mais rápido do que qualquer tecnologia anterior. Mais rápido que a internet, os smartphones e os PCs. Mas velocidade não é uniformidade — diferentes setores, países e perfis profissionais estão em pontos radicalmente distintos da curva.

📈

Dado-chave do Stanford AI Index 2026

O investimento global em IA atingiu US$ 581 bilhões em 2025 — mais que o dobro dos US$ 253 bilhões de 2024, e superando o recorde anterior de US$ 360 bilhões de 2021. O setor gera receita mais rápido do que qualquer boom tecnológico anterior.

$581B
Investimento global IA 2025
Dobrou em 1 ano
38,3%
Humanity's Last Exam (top modelo)
Era 8,8% em 2025 — subiu 4× em 12 meses
66%
OSWorld — tarefas autônomas em PC
Era ~12% em 2024. Humano: ~72%
≈99%
SWE-Bench Verified (eng. de software)
Era ~60% em 2024. Saturado.

Adoção vs. tecnologias anteriores

🖥️

PC Pessoal

Levou ~15 anos para penetrar metade dos lares americanos (1980s–1995). Curva de adoção suave e gradual, limitada por custo de hardware.

🌐

Internet

Atingiu 50% de penetração nos EUA em ~10 anos (1995–2005). Acelerada por banda larga. Transformou comunicação e comércio.

🤖

IA Generativa

ChatGPT atingiu 100M de usuários em 60 dias — a adoção mais rápida da história. Em 2026, estimativas apontam ~1 bilhão de usuários ativos de ferramentas de IA.

⚠️

A armadilha do Hype Cycle

Velocidade de adoção ≠ maturidade. Muitas empresas estão no pico da "curva de expectativas infladas" — usam IA para casos simples e concluem que transformação é fácil, antes de descobrir o "vale da desilusão" em sistemas complexos e de missão crítica.

Seção 02 · Histórico

O que mudou nos últimos 18 meses

De outubro de 2024 a abril de 2026 houve mais avanços do que nos 3 anos anteriores combinados. Reasoning, agentes autônomos e multimodalidade deixaram de ser demonstrações de laboratório e viraram APIs em produção.

OUT
2024

Claude 3.5 Sonnet + Computer Use público

Anthropic libera Computer Use em beta — pela primeira vez um modelo comercial pode operar um PC visualmente. GPT-4o ganha suporte a voz em tempo real.

NOV
2024

OpenAI o1 / o3 — raciocínio encadeado

Modelos com "chain-of-thought" interno chegam ao mercado. Diferença entre velocidade e precisão: o3 atinge 87% em benchmark de matemática de olimpíada.

JAN
2025

DeepSeek R1 — choque de eficiência

Lab chinês lança modelo open-source que iguala GPT-4o treinado com fração do custo. Derruba ações da Nvidia em 1 dia (−17%). Prova que a vantagem americana em custo de treinamento não é permanente.

MAR
2025

Claude 3.7 Sonnet — Extended Thinking

Anthropic lança raciocínio explícito configurável, com 200K tokens de contexto. Torna-se referência em coding e análise técnica.

MAI
2025

GPT-5 + Claude Code GA

OpenAI lança GPT-5 unificando os modelos Codex. Claude Code sai de preview para GA — agentes de coding autônomo viram mercado real. Gemini 2.5 Pro crava contexto de 1M tokens.

AGO
2025

EU AI Act — GPAI rules em vigor

Segunda fase do AI Act entra em vigor: fornecedores de modelos de propósito geral (como GPT, Claude, Gemini) precisam publicar documentação de treinamento e respeitar copyright. Prazo final: agosto 2026.

OUT
2025

Modelos de vídeo e áudio em produção

Runway Gen-4, Kling 3.0, Veo 3 chegam a qualidade broadcast. ElevenLabs lança vozes em 32 idiomas com emoção. Barreira criativa de custo colapsa.

FEV
2026

Claude 4 Family + Gemini 3 Pro

Opus 4.6 com Adaptive Thinking, Sonnet 4.6 como workhorse. Google lança Gemini 3.1 Pro com 77% no ARC-AGI-2, dobro da versão anterior. Corrida entre Anthropic, Google, OpenAI e xAI se intensifica.

ABR
2026

Stanford AI Index 2026 + Humanity's Last Exam: 38%

Relatório anual confirma aceleração. HLE sobe de 8,8% para 38,3% em 12 meses. Arena Elo mostra empate técnico entre Anthropic, xAI, Google e OpenAI. Competição se desloca para custo, confiabilidade e uso real.

Seção 03 · Panorama

Principais modelos 2025–2026

O mercado convergiu para um oligopólio técnico: 4-5 labs dominam os benchmarks, mas as margens são tão pequenas que a diferenciação real é custo, latência e integração.

🏆

Arena Elo — Março/Abril 2026

Anthropic (1.503) · xAI (1.495) · Google (1.494) · OpenAI (1.481) · Alibaba (1.449) · DeepSeek (1.424). Separação de apenas ~80 pontos entre primeiro e sexto lugar — o menor gap da história.

Modelo Lab SWE-Bench GPQA Diamond ARC-AGI-2 HLE Contexto Preço (input/MTok)
GPT-5.5 NEW OpenAI 78,2% ~88% 85% ~38% 128K $2,50
Gemini 3.1 Pro NEW Google 78,8% 94,3% 77,1% ~36% 2M $2,00
Claude Opus 4.6 Anthropic 80,8% 87-89% ~70% 38,3% 200K $15,00
Grok 4.20 xAI ~76% ~87% ~68% ~35% 128K $3,00
Llama 4 Scout Meta (open) ~65% ~78% ~45% ~25% 10M Free (self-host)
DeepSeek V3.2 DeepSeek (open) ~70% ~82% ~55% ~28% 128K $0,28
Qwen 3.5 9B Alibaba (open) 81,7% 128K $0,10
💡

Interpretação consultiva

Para 90% dos casos de uso empresariais, Sonnet 4.6 (Anthropic) ou Gemini 3.1 Flash são a escolha ideal em custo-benefício. Opus 4.6 e GPT-5.5 fazem sentido apenas para tarefas de raciocínio extremamente complexo. DeepSeek V3.2 tem custo 50× menor que Opus com ≈85% da capacidade — escolha real para volume.

Seção 04 · Métricas

Benchmarks: o que medem (e o que escondem)

Todo número de benchmark precisa de contexto. MMLU está saturado. SWE-Bench virou obrigatório. ARC-AGI-2 é o mais honesto sobre raciocínio genuíno. Mas nenhum prediz desempenho em produção.

Benchmarks principais e status atual

MMLU (conhecimento geral)
93% 🔴
SATURADO — diferença entre modelos é ruído estatístico
SWE-Bench Verified (código)
~80%
GPQA Diamond (PhD science)
94% 🔴
Gemini 3.1 Pro lidera — quase saturado
Humanity's Last Exam (HLE)
38%
→ Humano especialista
~90%
ARC-AGI-2 (raciocínio fluido)
85% 🏆
→ Humano médio
60%
OSWorld (autonomia em PC)
66%
→ Humano
~72%
🚨

O Gap Benchmark → Produção

Análise de 2026 mostra um gap de 37% entre scores de benchmark e desempenho real em sistemas agênticos corporativos. Custo varia 50× para precisão similar. Benchmark é filtro, não veredicto — avalie o que você realmente vai deployar.

Como interpretar benchmarks com clientes

❌ Interpretação ingênua

"O modelo X tem 94% em GPQA, então é melhor para qualquer coisa técnica do que o Y com 89%."

✅ Interpretação consultiva

"GPQA mede PhD-level science. Para o seu caso de análise fiscal, o diferencial relevante é SWE-Bench + latência + custo por chamada no seu volume esperado."

Seção 05 · Realidade

O que ainda não funciona bem

"Jagged intelligence" — inteligência irregular. Modelos de 2026 resolvem problemas de olimpíada de matemática mas falham em ler relógios analógicos. Entender onde a IA ainda tropeça é tão importante quanto saber onde ela brilha.

⏰ Percepção visual básica

FALHA

ClockBench 2026: até o melhor modelo (GPT-5.4) acerta um relógio analógico em apenas 50% das vezes. Claude Opus 4.6: 8,9% de acerto. O problema é que "a linguagem carrega o peso" mesmo em tarefas multimodais — o modelo ignora pistas visuais.

🤖 Robótica física

FALHA

Robôs domésticos completam apenas 12% das tarefas do lar. Em laboratório controlado (RLBench), chegam a 89% — mas o mundo real é imprevisível. Físico é muito mais difícil que digital.

🧮 Matemática visual

PARCIAL

Modelos resolvem problemas matemáticos complexos em texto com >90% de acerto, mas degradam significativamente quando os mesmos problemas são apresentados como imagens (puzzles visuais, diagramas). Raciocínio espacial continua problemático.

🌍 Física intuitiva

FALHA

IntPhys 2 (benchmark de física intuitiva em vídeo): modelos performam apenas marginalmente acima do acaso. Saber se um vídeo é "fisicamente plausível" é trivial para humanos e difícil para LLMs sem experiência no mundo físico.

📅 Datas e calendários

PARCIAL

Combinações de linguagem + data/calendário são suscetíveis a erros. Modelos frequentemente ignoram informações temporais explícitas se contradizem padrões do treinamento. Calcular "qual era a terceira sexta-feira de fevereiro de 1987" ainda varia muito.

⚖️ Domínios profissionais complexos

PARCIAL

Direito e finanças: nenhum modelo domina o campo ainda. GDPval (avaliação com profissionais reais de 14+ anos) mostra que em estética Claude se destaca, mas em precisão jurídica nenhum modelo é confiável sem supervisão humana.

🔒 Consistência longa

PARCIAL

Em conversas e agentes de longa duração, modelos "esquecem" instruções do início, contradizem decisões anteriores e perdem o fio de raciocínio. Janela de contexto grande ≠ atenção uniforme ao longo do contexto.

🎯 Calibração de confiança

PARCIAL

Modelos frequentemente expressam igual confiança em respostas certas e erradas. Alucinações confiantes (hallucinations with high confidence) continuam sendo o principal risco em casos de uso de alto stakes como medicina e compliance.

Seção 06 · Debate

Debate AGI: onde estamos?

AGI (Artificial General Intelligence) é o termo mais debatido e menos definido da indústria. Cada lab tem uma definição, e cada definição convenientemente posiciona seu próprio produto como próximo de atingi-la. Vamos colocar dados na mesa.

AGI Progress Estimate — GPT-5 (pesquisa Center for AI Safety, 2025)
57%
0% — Ferramenta básica 50% — Marco intermediário 100% — AGI (def. CAIS)

Framework: 10 capacidades humanas (raciocínio, memória, linguagem, visão, escrita...) ponderadas igualmente. GPT-4: 27%. GPT-5: 57%.

Podemos ter algo semelhante a 'um país de gênios em um datacenter' já em 2026.

Dario Amodei (CEO Anthropic) — previsão 2024, progressivamente revisada

A IA será mais inteligente que um Prêmio Nobel em muitas disciplinas até o final de 2026 ou 2027.

Jack Clark (co-fundador Anthropic), setembro 2025

Os 3 conceitos que você precisa separar

🧠

AGI

Artificial General Intelligence — sistema que iguala ou supera humanos em qualquer tarefa cognitiva. Não existe consenso se ou quando será atingido. GPT-5 está em ~57% por uma definição rigorosa.

🚀

ASI

Artificial Superintelligence — sistema que supera humanos em todas as dimensões cognitivas por ordens de magnitude. Conceito de longo prazo. Mayoridade dos pesquisadores o coloca como décadas à frente — se possível.

🎯

Alignment

Garantir que sistemas de IA poderosos ajam de acordo com valores humanos. Problema técnico e filosófico não resolvido. Anthropic e OpenAI têm equipes dedicadas — mas não há solução validada para sistemas muito acima do atual.

🔬

Capability Overhang — o risco real

Modelos já treinados podem ter capacidades ocultas que ainda não foram descobertas ou elicitadas. Quando novas técnicas de prompting ou scaffolding surgem, capacidades "dormentes" emergem sem novo treinamento. Este é um dos principais riscos para o debate de safety: não sabemos o que modelos existentes "sabem".

O que os dados dizem sobre ARC-AGI-2 (Abril 2026)

GPT-5.5
85% 🏆
GPT-5.4 Pro
83,3%
Gemini 3.1 Pro
77,1%
Humano médio
60%
ARC-AGI-3 (novo, sem regras)
<1%

ARC-AGI-3: jogo sem regras explícitas, exige raciocínio fluido puro. Modelos frontier: <1%. Humanos: >60%.

🎓

Posição consultiva

Para clientes: AGI é irrelevante para decisões de compra de 2026. O que importa é: o modelo resolve o seu problema específico com confiabilidade e custo aceitáveis? Deixe o debate filosófico para os labs — você está pagando por ROI.

Seção 07 · Mercado de Trabalho

Impacto no mercado de trabalho

A pergunta não é "a IA vai roubar empregos?" — é "quais tarefas serão automatizadas, quais serão aumentadas, e quem será deslocado ou elevado?" Os dados de 2025-2026 mostram um impacto real, mas mais matizado do que o hype sugere.

+2,7×
Publicações sobre IA em drug discovery
Vs. 2 anos atrás — setor mais acelerado
≈100%
SWE-Bench Verified 2025
Era 60% em 2024 — coding assistido transformado
37%
Gap benchmark → produção em agentes
Significa que humano de supervisão ainda é crítico
450K
Viagens semanais Waymo
5 cidades EUA — mobilidade autônoma em escala real

Setores por nível de disrupção (visão 2026)

💻 Desenvolvimento de Software ALTO
  • Coding assistido ≈ padrão universal
  • Code review automatizado
  • Documentação e testes gerados por IA
  • Junior devs precisam reposicionamento
  • Senior+ com IA produz 3–5× mais
📝 Redação & Conteúdo ALTO
  • Conteúdo de marketing em escala
  • Tradução profissional transformada
  • Jornalismo de dados automatizado
  • Copywriting: co-piloto universal
  • Diferencial: voz autoral + estratégia
🏥 Saúde & Medicina MÉDIO
  • Diagnóstico por imagem: IA como 2ª opinião
  • Drug discovery acelerado (2,7× publicações)
  • Registro clínico automatizado
  • Regulação e responsabilidade ainda bloqueiam
  • Médico + IA > médico ou IA sozinhos
⚖️ Direito & Compliance MÉDIO
  • Due diligence e revisão de contratos: alta automação
  • Pesquisa jurídica acelerada
  • Aconselhamento estratégico: humano ainda lidera
  • Nenhum modelo domina julgamentos reais ainda
  • Foco: paralegais e advogados júnior mais impactados
🧮 Contabilidade & Fiscal MÉDIO
  • Conciliação e classificação automatizadas
  • Geração de relatórios de conformidade
  • Análise de anomalias fiscal em escala
  • Interpretação de legislação: co-piloto útil, não autônomo
  • Diferencial: julgamento sobre casos-borda
🚚 Logística & Supply Chain MÉDIO
  • Roteirização e previsão de demanda: transformadas
  • Controle de estoque preditivo
  • Robótica em armazéns (mas 12% físico...)
  • Gestão de fornecedores: documentação automática
  • Decisão estratégica de sourcing: humano
🎨 Design & Criação ALTO
  • Design de peças únicas: IA como co-criador
  • Produção em escala: altamente automatizada
  • Identidade de marca: ainda demanda humano
  • Vídeo e áudio: qualidade broadcast com IA
  • Diferencial: direção criativa e estratégia
📊 Análise de Dados & BI ALTO
  • Análises ad-hoc em linguagem natural
  • Geração de dashboards por descrição
  • Interpretação de anomalias
  • Data cleaning: altamente automatizado
  • Diferencial: perguntas estratégicas certas
🔧 Manutenção Industrial / Field BAIXO
  • Diagnóstico de falhas com IA: útil
  • Manuais e procedimentos gerados
  • Robótica física: apenas 12% de tarefas
  • Trabalho manual especializado: mais protegido
  • Augmentação via AR + IA é o caminho
🎓

A habilidade que mais importa em 2026

Não é saber programar IA. É saber fazer as perguntas certas. Em qualquer setor, o profissional que consegue decompor problemas complexos em tarefas que IA pode executar — e validar os resultados com julgamento de domínio — se torna multiplicador de valor. Essa consultora aprende isso neste cursinho.

Seção 08 · Governança

Regulação global: o mapa de 2026

O mundo da regulação de IA está divergindo: UE com abordagem baseada em risco e compliance rigoroso, EUA com mosaico de leis estaduais e executive orders, e Brasil com seu PL ainda em construção. Entender o mapa evita surpresas caras para clientes.

Jurisdição Abordagem Status (Abr 2026) O que afeta na prática
🇪🇺 União Europeia
EU AI Act
Risk-based Fev/25: banidos Ago/25: GPAI Ago/26: high-risk HR, recrutamento, scoring de crédito, sistemas de saúde. Multas até €15M ou 3% do faturamento global. Digital Omnibus propõe adiamento de algumas obrigações.
🇺🇸 Estados Unidos
Federal + Estadual
Setorial Dez/25: Executive Order EO de dez/2025: framework federal mínimo para limitar divergência estadual. Califórnia, NY, Colorado avançam independentemente. Sem lei federal unificada ainda.
🇧🇷 Brasil
PL 2338/2023
Risk-based Em comissão Aprovado no Senado em dez/2024, em comissão especial em 2025. Espelha a UE: proíbe "risco excessivo", responsabilidade objetiva, LGPD complementa. ANPD potencial autoridade supervisora.
🇨🇳 China
Vertical / Segurança
Controle Jan/26: Cybersec Foco em segurança estatal e conteúdo. Jan/2026: emendas de cibersegurança com punições imediatas sem aviso. Conteúdo AI-gerado: watermark + metadados obrigatórios.
🇯🇵 Japão
AI Promotion Act
Innovation-first Mai/25: aprovado Approach mais leve: princípios, advertências, sem punições duras. Pressão reputacional como mecanismo. Visa adoção com responsabilidade, sem enforcement agressivo.
🇬🇧 Reino Unido Setorial Sem lei central Reguladores setoriais (FCA, CMA, ICO) aplicam regras existentes ao contexto de IA. Proposta de responsabilidade para desenvolvedores em discussão. Postura pós-Brexit: diferente da UE.

EU AI Act — linha do tempo para clientes

FEV
2025

✅ Fase 1 — Banimentos em vigor

Sistemas de "risco inaceitável" proibidos: reconhecimento de emoção no trabalho, scoring social biométrico, vigilância em massa. Obrigatoriedade de AI literacy nas organizações europeias.

AGO
2025

✅ Fase 2 — GPAI rules

Fornecedores de modelos de propósito geral (OpenAI, Anthropic, Google) precisam publicar documentação de treinamento, respeitar copyright, e modelos de "risco sistêmico" devem reportar incidentes à AI Office.

AGO
2026

⏳ Fase 3 — High-risk completo (em risco de atraso)

Sistemas de alto risco (RH, crédito, saúde, infraestrutura crítica) precisam de: documentação técnica, testes de bias, supervisão humana, registro na EU. Digital Omnibus pode atrasar esta fase até 2027-2028 por falta de padrões técnicos.

🇧🇷

Brasil: o que monitorar

PL 2338/2023 segue o modelo europeu de risco. LGPD já afeta sistemas de IA que tratam dados pessoais. Organizações brasileiras que exportam para a UE precisam se preparar para o EU AI Act agora — e o PL nacional deve chegar com exigências similares. Quem construir governança para a UE estará adiantado no Brasil.

Seção 09 · Futuro próximo

O que vem por aí: 2026–2027

Previsões em IA têm prazo de validade curto — modelos de há 18 meses já são obsoletos. Mas existem tendências estruturais com momentum suficiente para apostar com confiança.

🤖 Agentes autônomos em produção ALTA CERTEZA

OSWorld passou de 12% para 66% em 1 ano — falta ~6 pontos para parity humana em tarefas de PC. Espere agentes de automação corporativa (RPA + IA) substituindo fluxos de trabalho inteiros, não apenas tarefas. Human-in-the-loop: não vai sumir, vai se tornar raro para ações reversíveis.

💰 Comoditização de modelos frontier ALTA CERTEZA

Com Arena Elo separando os top-5 por apenas ~80 pontos, a competição se desloca para custo, latência e integração. Espere preços caindo 40-70% nos próximos 18 meses (tendência histórica desde GPT-3). Modelos menores e especializados vão dominar a maioria dos casos de uso.

🧠 Raciocínio persistente e memória MÉDIA CERTEZA

Extended Thinking (Anthropic) e equivalentes consolidam o paradigma de "pensar antes de responder". Próximo passo: agentes que constroem memória semântica ao longo de meses. Modelos que "lembram" de contexto de projetos anteriores sem re-injeção manual.

📊 Avaliação e evals como competência ALTA CERTEZA

2026 é o ano em que times de AI precisam investir pesado em avaliação e monitoramento. Gap de 37% entre benchmark e produção significa que qualidade precisa ser medida continuamente — não apenas no lançamento. Evals são o novo controle de qualidade.

⚡ Física e robótica: próxima fronteira BAIXA CERTEZA (curto)

12% de tarefas domésticas é frustrante para os labs — mas aceleração está vindo. Figure, Boston Dynamics, Tesla Bot estão todos em escala de produção. 2027-2028 é o horizonte realista para robótica em ambientes industriais controlados.

🌐 Multi-agent por padrão MÉDIA CERTEZA

Sistemas com um único agente LLM estão sendo substituídos por orquestrações multi-agente onde modelos especializados colaboram. Padrão Supervisor-Worker se torna default para pipelines empresariais. OpenAI Operator, Claude Cowork e Google Mariner provam o modelo.

🔒 Safety como diferencial competitivo MÉDIA CERTEZA

Com EU AI Act em vigor, compliance não é custo — é vantagem. Empresas com governança de IA madura chegam a novos mercados primeiro. Anthropic's Constitutional AI e interpretabilidade (mecanistic interpretability) devem gerar diferencial técnico crescente.

🇨🇳 Convergência EUA-China ALTA CERTEZA

DeepSeek V3.2 e Alibaba Qwen 3.5 provam que o gap técnico entre labs americanos e chineses está fechando. Com preços 50-100× menores, modelos chineses open-source vão pressionar preços globalmente — e complicar controles de exportação de chips.

🎯

Síntese consultiva: o que monitorar nos próximos 12 meses

Regulation: PL brasileiro + EU AI Act high-risk deadline (ago/2026).  Técnico: ARC-AGI-3 scores — indicador mais honesto de raciocínio genuíno.  Mercado: queda de preços de frontier models — quanto e quando.  Agentes: OSWorld passando humanos em 2026 ou 2027.

Seção 10 · Referência

Glossário do Módulo 5

Termos introduzidos neste módulo. Mantenha à mão para consultorias — clientes adoram quando você usa a terminologia certa no momento certo.

AGI — Artificial General Intelligence
Sistema de IA capaz de realizar qualquer tarefa cognitiva que um humano consegue fazer, com qualidade equivalente ou superior. Não existe ainda; definição varia por lab e pesquisador.
ASI — Artificial Superintelligence
Sistema de IA que supera humanos em todas as dimensões cognitivas por ordens de magnitude. Conceito teórico, sem previsão consensual de quando (ou se) ocorreria.
Alignment
Campo de pesquisa focado em garantir que sistemas de IA poderosos ajam de acordo com valores e intenções humanas. Problema técnico e filosófico central para safety de IA avançada.
Frontier Model
Modelos de IA no estado da arte em desempenho — os mais capazes disponíveis em um dado momento. Ex: Claude Opus 4.6, GPT-5.5, Gemini 3.1 Pro em abril 2026.
Capability Overhang
Capacidades latentes em modelos existentes que ainda não foram descobertas ou elicitadas. Quando novas técnicas surgem (prompts, scaffolding), capacidades "dormentes" emergem sem novo treinamento.
Jagged Intelligence
Perfil de capacidades irregular dos LLMs: excelentes em tarefas complexas (olimpíadas de matemática) mas falham em tarefas simples (ler relógio). Não há inteligência uniforme.
Benchmark Saturation
Quando um benchmark deixa de ser útil para diferenciar modelos porque todos já atingem scores próximos do máximo. MMLU está saturado (88-93%). Novos benchmarks são criados ciclicamente.
Arena Elo
Sistema de ranking de LLMs baseado em comparações cegas lado a lado por usuários humanos (Chatbot Arena). Considerado mais próximo da preferência real do que benchmarks automatizados.
Humanity's Last Exam (HLE)
Benchmark com 2.500 perguntas criadas por especialistas de domínio, projetado para ser difícil para IA. Em 2025: top modelo 8,8%. Em 2026: 38,3%. Humano especialista: ~90%.
ARC-AGI-2
Benchmark de raciocínio fluido com puzzles visuais sem regras explícitas. Mede inteligência genuína vs. memorização de padrões. Humano médio: 60%. Top IA: 85% (GPT-5.5, abr/2026).
OSWorld
Benchmark de autonomia em computadores — agentes controlam um PC real e completam tarefas em ambientes de SO. Em 2024: ~12%. Em 2026: 66%. Humano: ~72%.
Safety (AI Safety)
Campo focado em garantir que sistemas de IA sejam seguros, confiáveis e não causem danos imprevistos. Inclui robustez técnica, interpretabilidade, alinhamento e governança.
EU AI Act
Primeira regulação abrangente de IA do mundo, da União Europeia. Classifica sistemas por risco (inaceitável/alto/limitado/mínimo) com obrigações crescentes. Em vigor gradualmente de fev/2025 a ago/2027.
PL 2338/2023 (Brasil)
Projeto de Lei brasileiro de IA, aprovado no Senado em dez/2024. Espelha abordagem europeia de risco. Em comissão especial em 2025. ANPD potencial autoridade supervisora.
GPAI (General Purpose AI)
No contexto do EU AI Act: modelos de IA de propósito geral como GPT, Claude, Gemini. Sujeitos a regras específicas de transparência e documentação desde agosto 2025.
Human-in-the-Loop (HITL)
Padrão de design onde humanos supervisionam, validam ou aprovam decisões de sistemas de IA — especialmente em ações de alto impacto ou irreversíveis. Requisito regulatório para sistemas de alto risco.
Eval (Evaluation)
Processo sistemático de avaliar a qualidade e desempenho de um sistema de LLM em tarefas específicas. Fundamental para produção: gap de 37% entre benchmark e performance real em agentes.
Deployment Gap
Diferença entre performance de um modelo em benchmarks controlados e sua performance em aplicações reais de produção. Em 2026, estimado em 37% para sistemas agênticos corporativos.
Tags — conceitos do módulo
AGI ASI Alignment Safety Frontier Models Capability Overhang Jagged Intelligence Benchmark Saturation Arena Elo HLE ARC-AGI-2 OSWorld EU AI Act GPAI PL 2338 HITL Evals Deployment Gap
Próximo módulo

M6 · Arquivos de Contexto e Memória de Sistema

Como sistemas de IA constroem, armazenam e recuperam memória. RAG em profundidade, vector databases, janela de contexto como recurso finito e arquitetura de agentes de longa duração.

CONTINUAR PARA O MÓDULO 6 →