LLMs & Transformers — Módulo 2

Seção 1 — Correção do Módulo 1

Os Tipos de IA — O que o Módulo 1 Não Cobriu

No Módulo 1 falamos de Machine Learning, Deep Learning e LLMs — mas existe uma distinção mais fundamental que todo profissional precisa entender: a diferença entre IA Generativa, Preditiva, Discriminativa e Analítica. Cada uma tem uma finalidade completamente diferente.

Tipo 01 IA Generativa

O que faz: cria conteúdo novo — texto, imagens, vídeo, código, música — que não existia antes, aprendendo padrões de dados existentes.

É o tipo mais recente e mais disruptivo. ChatGPT, Claude, Midjourney, Sora, ElevenLabs e Gamma são todos IA generativa. Usa arquiteturas como Transformers, Modelos de Difusão e GANs.

✦ Redigir relatórios, gerar imagens de marketing, criar vídeos de treinamento, escrever código

Tipo 02 IA Preditiva

O que faz: analisa dados históricos e prevê o que vai acontecer — um resultado futuro, um comportamento provável, uma tendência.

É o tipo mais antigo e mais usado silenciosamente no mundo corporativo. Não cria nada — analisa e projeta. Regressão, séries temporais, random forests e redes neurais de classificação são suas ferramentas.

✦ Previsão de demanda, score de crédito, detecção de fraude, manutenção preditiva, churn de clientes

Tipo 03 IA Discriminativa

O que faz: aprende a separar e classificar — distingue spam de e-mail legítimo, tumor maligno de benigno, voz autorizada de intruso. Foca nas fronteiras entre categorias.

Enquanto a IA generativa pergunta "como esses dados foram criados?", a discriminativa pergunta "a qual categoria este dado pertence?". É mais precisa em tarefas de classificação industrial.

✦ Filtro de spam, diagnóstico médico, controle de qualidade visual, reconhecimento facial

🏭

Mais dois tipos importantes

IA Descritiva: descreve o que aconteceu no passado — analytics, dashboards, relatórios automáticos. IA Analítica (ou Prescritiva): não só prevê, mas recomenda o que fazer — "com base na previsão de demanda, você deve comprar X unidades até quarta-feira". A maioria dos sistemas corporativos combina dois ou mais tipos.

Como esses tipos se relacionam

Generativa + Preditiva juntas

A combinação mais poderosa. A IA preditiva prevê que um cliente tem 78% de chance de churn. A IA generativa escreve automaticamente um e-mail personalizado de retenção para aquele cliente específico, com o tom certo e a oferta mais relevante. Separadas, são úteis. Juntas, automatizam um fluxo inteiro de CRM.

Discriminativa + Generativa juntas

As GANs (Redes Adversariais Generativas) funcionam exatamente assim: uma rede geradora cria imagens novas, e uma rede discriminadora avalia se parecem reais. As duas competem — forçando o gerador a produzir resultados cada vez mais realistas. Essa arquitetura foi a base da geração de imagens antes dos modelos de difusão.

Seção 2 — O Motor por Trás de Tudo

Como o Transformer Funciona

A arquitetura que mudou a IA. Publicada em 2017 pelo Google em "Attention Is All You Need", o Transformer resolveu em um papel o problema que havia bloqueado o progresso do NLP por décadas — e hoje é o motor de praticamente todos os modelos de linguagem modernos.

❓

O problema que o Transformer resolveu

As redes neurais anteriores (chamadas RNNs — Redes Neurais Recorrentes) processavam texto palavra por palavra, em sequência. Isso criava dois problemas graves: (1) era impossível paralelizar o treinamento em GPUs — era lento demais para grandes volumes de dados; (2) quando o texto era longo, a rede "esquecia" as palavras do início até chegar ao fim.

O mecanismo de Attention — a inovação central

O Transformer processa todas as palavras ao mesmo tempo — e usa o mecanismo de Attention para calcular qual palavra é mais relevante para entender cada outra palavra no texto.

Attention na prática

Considere a frase: "O banco ficou na margem do rio, mas eu não consegui sentar porque estava coberto de lama."

Ao processar a palavra "lama", o mecanismo de Attention identifica que "banco" aqui se refere ao banco de praça (objeto físico), não à instituição financeira — porque as palavras "rio", "sentar" e "margem" recebem pesos altos de atenção nesse contexto. É esse cálculo de relevância dinâmica que permite aos LLMs entender ambiguidades e contextos longos.

Tecnicamente: cada token gera três vetores — Query (o que estou buscando?), Key (o que eu ofereço?) e Value (qual informação devo passar?). O produto escalar entre Query e Key gera uma pontuação de relevância. Pontuações altas = mais atenção. Esse processo acontece em paralelo para todos os tokens ao mesmo tempo.

O fluxo do Transformer — da entrada à saída

Passo 1 🔤 Tokenização O texto é dividido em tokens. "Inteligência" pode virar 2–3 tokens dependendo do modelo.

Passo 2 🧭 Embeddings Cada token é convertido em um vetor numérico de alta dimensão (geralmente 768–4.096 números).

Passo 3 👁️ Multi-head Attention Múltiplas "cabeças" analisam relações diferentes: sintaxe, semântica, referências de longo alcance. Em paralelo.

Passo 4 🏗️ Feed-forward + camadas Cada representação é refinada por camadas densas. GPT-4 tem ~96 dessas camadas empilhadas.

Passo 5 📊 Softmax → próximo token A saída final é uma distribuição de probabilidade sobre todos os tokens do vocabulário. O mais provável (ou um próximo a ele, conforme a temperatura) é selecionado.

🏢

Por que isso importa para quem não é desenvolvedor

Entender que o Transformer processa tudo em paralelo explica por que janelas de contexto grandes são possíveis — e por que o modelo não "lê de cima pra baixo", mas considera todas as partes do documento ao mesmo tempo. Isso também explica por que um prompt bem estruturado (com exemplos antes da pergunta) melhora tanto a qualidade da resposta.

Seção 3

Como um LLM Gera Texto — Token a Token

Um LLM não "pensa" a resposta inteira e depois digita. Ele gera um token por vez, e cada token gerado influencia todos os próximos. Entender isso muda como você escreve prompts.

O processo de inferência

Quando você manda uma mensagem ao Claude ou ao ChatGPT, o modelo executa um ciclo repetidamente:

1. Recebe toda a janela de contexto (seu prompt + histórico + documentos).

2. Calcula uma distribuição de probabilidade sobre o próximo token.

3. Seleciona um token (influenciado pela temperatura).

4. Adiciona esse token ao contexto e repete.

Isso acontece dezenas a centenas de vezes para gerar uma resposta completa — cada token gerado se torna parte do contexto para os próximos.

Por que isso explica comportamentos

Se o início de uma resposta vai por um caminho equivocado, os tokens seguintes constroem em cima desse erro — é difícil "corrigir no meio". Por isso modelos com Extended Thinking (Claude, o1 da OpenAI) geram uma cadeia de raciocínio intermediária antes da resposta final — eles se corrigem antes de entregar.

Também explica por que prompts com exemplos no início funcionam melhor: eles "direcionam" a distribuição de probabilidade dos primeiros tokens para o padrão correto, e os tokens seguintes constroem em cima disso.

Não peça ao modelo para "pensar diferente no meio". Estruture o prompt para que os primeiros tokens gerados já sigam o formato certo.

Autoregressive vs Diffusion — dois paradigmas de geração

Paradigma 1 Autoregressive (LLMs atuais)

Gera conteúdo sequencialmente — um token por vez, da esquerda para a direita. É o paradigma do GPT, Claude, Gemini e Llama. Funciona muito bem para texto e código, onde a ordem importa. Limitação: mais lento para conteúdo longo, pois cada passo depende do anterior.

Usado em: todos os grandes LLMs de texto, ChatGPT, Claude, Gemini, Llama

Paradigma 2 Modelos de Difusão

Partem de "ruído puro" (pixels ou dados aleatórios) e aprendem a removê-lo gradualmente, revelando uma imagem ou outro conteúdo. Em vez de construir da esquerda para a direita, refinam tudo ao mesmo tempo em etapas de denoising. Mais eficientes para imagens e vídeos porque permitem paralelização.

Usado em: Midjourney, DALL-E, Stable Diffusion, Flux — todos os geradores de imagem modernos

Seção 4

Escala, Emergência e Por Que LLMs Alucinam

Uma das descobertas mais surpreendentes da IA moderna: modelos maiores desenvolvem capacidades que modelos menores não têm — e essas capacidades surgem sem treinamento específico para elas.

Emergência — quando quantidade vira qualidade

~1B parâmetros

GPT-1 (2018) Completar frases simples. Nada mais confiável.

~117B parâmetros

GPT-2 (2019) Escrever parágrafos coerentes. Considerado "perigoso demais" para publicar.

~175B parâmetros

GPT-3 (2020) Escrita, código, tradução sem treinamento específico. Emergência real.

>500B parâmetros

GPT-4 / Claude 3 (2023) Raciocínio multi-etapa, exames profissionais, código complexo, análise de imagem.

Não divulgado

GPT-5 / Opus 4.6 (2025–26) Agentes autônomos, raciocínio complexo, coding profissional, execução multi-hora.

⚡

O que é emergência?

Capacidades que surgem espontaneamente em modelos grandes, sem terem sido treinadas especificamente para isso. GPT-3 aprendeu a fazer aritmética básica sem ter sido treinado nessa tarefa — apenas porque havia muitos exemplos de matemática nos dados de texto. Não sabemos exatamente por que isso acontece, nem em qual ponto emerge — o que torna o campo ao mesmo tempo fascinante e imprevisível.

Por que LLMs alucinam — a explicação técnica

A causa estrutural

LLMs são treinados para prever o próximo token mais plausível, não necessariamente o mais verdadeiro. Quando não têm informação suficiente, continuam gerando tokens plausíveis — baseados em padrões estatísticos do treinamento, não em fatos verificados.

É como pedir a um especialista que não conhece o assunto para falar com autoridade: ele vai inventar algo que soa correto, porque aprendeu como especialistas falam — mas o conteúdo pode ser fabricado.

Quando alucinações são mais prováveis

Assuntos pouco representados nos dados de treinamento (notícias recentes, nichos técnicos, dados privados da sua empresa). Perguntas sobre pessoas pouco conhecidas, artigos científicos específicos, ou números precisos. Raciocínio encadeado longo, onde um erro inicial contamina todos os passos seguintes.

Para reduzir: use RAG com fontes verificáveis, peça citações, use temperatura baixa, e sempre valide outputs de IA em contextos críticos.

Haiku vs Sonnet vs Opus — quando usar cada modelo

Característica	Haiku / Flash / Mini	Sonnet / Pro / Flash	Opus / GPT-5 Pro / Gemini Ultra
Velocidade	⚡ Muito rápido	⚡⚡ Rápido	⏱ Mais lento
Custo por token	$$$ Muito baixo	$$ Moderado	$$$$ Alto
Raciocínio complexo	Limitado	Bom	Excelente
Coding avançado	Básico	Muito bom	Líder
Documentos longos	Até 100K tokens	200K–1M tokens	1M tokens
Tarefas de alta escala	Ideal — triagem, classificação, extração	Uso diário	Reservar para problemas difíceis
Uso recomendado	Automações, APIs, alto volume	Trabalho diário geral	Análises críticas, code review, agentes

Seção 5

IA Multimodal — Além do Texto

Os LLMs modernos não se limitam ao texto. Modelos multimodais processam e geram múltiplos tipos de mídia na mesma interface — texto, imagens, áudio, vídeo e código — combinados em fluxos de trabalho únicos.

Entrada multimodal Ver e entender

Você envia uma foto de uma nota fiscal — o modelo lê os valores. Você envia um diagrama técnico — o modelo explica o que está errado. GPT-4 Vision, Claude e Gemini 3.1 Pro aceitam imagens como entrada e respondem sobre elas em texto.

Saída multimodal Criar além do texto

Modelos como GPT-5, Gemini Ultra e Claude (desde março 2026) podem gerar imagens diretamente na conversa. Você descreve em texto — o modelo entrega a imagem no mesmo chat, sem mudar de ferramenta. Uma evolução significativa em relação a ter de usar ferramentas separadas.

Audio & Voz Ouvir e falar

GPT-5 com Advanced Voice e Gemini com Audio permitem conversas por voz em tempo real — com emoção, pausas naturais e interrupções. Não é apenas text-to-speech: o modelo entende contexto de voz, tom e nuances. ElevenLabs vai além com clonagem de voz customizada.

📱

Por que multimodal importa para negócios

Um processo que antes exigia: (1) digitalizar documento → (2) extrair texto com OCR → (3) enviar para análise → (4) gerar relatório em outra ferramenta — pode agora acontecer em uma única conversa com um modelo multimodal. Foto do documento → análise → relatório → imagem do gráfico, tudo no mesmo chat.

Seção 6

IA de Geração de Imagens

Em 2026, ferramentas de geração de imagem com IA são usadas por mais de 50 milhões de criadores globalmente — de designers de marketing a arquitetos e times de produto. Cada ferramenta tem um nicho claro.

🎨

Como funciona a geração de imagens com IA

Os geradores modernos usam Modelos de Difusão: começam com ruído aleatório (como uma televisão fora do ar) e aprendem a "desfazer" esse ruído gradualmente, guiados pela descrição em texto (o prompt). Após dezenas de passos de refinamento, emerge uma imagem. É o inverso de adicionar ruído — o modelo subtrai ruído de forma direcionada pelo texto.

midjourney.com Midjourney v7

O rei da qualidade artística. Imagens com profundidade, atmosfera e coerência visual que outros ainda não replicam. Opera via Discord ou web. Sem plano gratuito. Curva de aprendizado de prompts existe, mas o resultado vale.
Novidade em 2026: Niji 7 para anime/ilustração e geração de vídeo curto integrada.

arte conceitual, design de marca, marketing visual, ilustrações editoriais.

Arte$10–60/mês

⚡

flux.ai Flux 2 (Black Forest Labs)

O desafiante open-source que surpreendeu em 2025. Flux.1.1 Pro lidera em fotorrealismo e velocidade (4,5 segundos por imagem). Licença Apache 2.0 — uso comercial livre. Disponível via API e em dezenas de plataformas. Criado pelos fundadores do Stable Diffusion.
Variantes: Flux Max (qualidade máxima), Dev (open-weight), Klein (sub-segundo).

fotorrealismo, product shots, uso comercial, integração via API.

Open-sourceAPI

📝

ideogram.ai Ideogram 2.0

O especialista em texto dentro de imagens. Enquanto Midjourney ainda erra letras, Ideogram acerta 90%+ das vezes. Para logos, posters, mockups de interface e qualquer imagem que precise ter palavras legíveis, é o líder absoluto.
Também tem: Canvas para edições mais complexas, Character Creator para consistência de personagem e modo batch para lotes via planilha.

logos, posters, social media com texto, mockups de app, materiais de marketing.

TextoGratuito

🛡️

adobe.com/firefly Adobe Firefly 3

O único grande gerador treinado exclusivamente em conteúdo licenciado. Isso significa indemnização comercial total — sua empresa não corre risco de processo por direitos autorais. Integrado ao Photoshop (Generative Fill), Illustrator e toda a Creative Cloud. Para designers já no ecossistema Adobe, é a escolha óbvia.

uso corporativo com conformidade legal, design editorial, equipes no ecossistema Adobe.

Legal$10/mês

🔵

dall-e / openai DALL-E 4 / GPT Image 1.5

Mais acessível para iniciantes — integrado ao ChatGPT, você descreve em linguagem natural sem aprender sintaxe de prompt. Lidera em aderência a instruções complexas: cenas com múltiplos elementos, composições específicas e precisão semântica. Rende texto corretamente dentro de imagens.
2026: GPT Image 1.5 ocupa o topo do LM Arena para imagens.

iniciantes, composições complexas, mockups de UI, integração com ChatGPT.

FácilChatGPT

🔓

stability.ai Stable Diffusion 3.5

A opção open-source para quem quer controle total. Rode localmente — suas imagens nunca saem da empresa. Customização profunda via LoRA (modelos ajustados ao seu estilo específico) e ControlNet (controle de pose, profundidade, bordas). Requer GPU com 8GB+ de VRAM. Ecossistema enorme de modelos na Civitai.

privacidade total, fine-tuning de estilo, automação em alto volume, uso em GPU local.

Open-sourceLocal

🔄

Fluxo profissional com múltiplas ferramentas

Muitos criadores usam duas ou três ferramentas juntas: Midjourney para explorar conceitos visuais rapidamente → Flux ou Stable Diffusion para produção em volume e refinamento técnico → Adobe Firefly para assets finais com segurança legal. Cada ferramenta no estágio certo do processo.

Seção 7

IA de Geração de Vídeos

O campo que mais evoluiu entre 2024 e 2026. Ferramentas que em 2023 geravam clipes de 3 segundos com física impossível agora produzem vídeos de até 2 minutos em 4K, com áudio nativo sincronizado. O custo por segundo de vídeo caiu 65% em dois anos.

⚠️

Nota importante — Sora foi descontinuado

A OpenAI encerrou o Sora como produto standalone em abril de 2026, citando custos insustentáveis (cada clip de 25 segundos custava ~US$18 para gerar, enquanto usuários pagavam US$4–8). O acesso limitado via ChatGPT Plus permanece. As ferramentas abaixo são as alternativas recomendadas.

RunwayML Runway Gen-4.5

Referência em qualidade cinematográfica e controle criativo. O mais completo como estúdio: gere, itere, edite e exporte no mesmo lugar. Motion brushes, storyboard, 4K, consistência de cena. Favorito de produtoras e agências. Sem áudio nativo.

Cinematográfico$12/mês

Kuaishou Kling AI 3.0

Melhor custo-benefício do mercado — 40% mais barato que Runway por segundo de vídeo gerado. Lidera em realismo humano e lip sync. Vídeos de até 2 minutos. Áudio nativo em 5 idiomas. Plano gratuito generoso para testes.

Custo-benefício$10/mês

Google DeepMind Veo 3.1

Melhor em áudio nativo — gera diálogo, efeitos sonoros e áudio ambiente sincronizados na mesma passagem que o vídeo. Integra com Google Workspace, YouTube Studio e Google Ads. Via Gemini AI Pro ou Flow app.

Áudio nativoGoogle Pro

Luma AI Dream Machine 3

Especialista em atmosfera, fluidos e ambientes cinematográficos. Excepcional para footage de natureza, efeitos especiais e visuais abstratos. 4K HDR com simulação de física superior. Sem personagens humanos consistentes.

Atmosfera$7,99/mês

Pika Labs Pika 2.5

O mais rápido para conteúdo social — gera um clip em ~42 segundos. Pikaswaps, Pikaffects, Pikaframes. Para TikTok, Reels e Instagram onde velocidade > qualidade cinematográfica. Plano a partir de US$8/mês.

Rápido$8/mês

Adobe Firefly Video

Integrado ao Adobe Premiere e ao ecossistema Creative Suite. Acessa também Sora 2, Veo 3.1, Runway Gen 4.5 e Luma Ray3 via Artlist. Para equipes corporativas no ecossistema Adobe com necessidade de conformidade legal.

AdobeEnterprise

Quando usar cada ferramenta de vídeo

Situação	Ferramenta recomendada	Por quê
Vídeo publicitário de alta qualidade	Runway Gen-4.5	Melhor controle criativo e qualidade consistente
Alto volume de clips para redes sociais	Kling 3.0	Custo-benefício + velocidade razoável
Precisa de áudio sincronizado sem pós-produção	Veo 3.1 / Kling 3.0	Únicos com áudio nativo de qualidade
Reels e TikTok com entrega urgente	Pika 2.5	42 segundos de geração — o mais rápido
Equipe no ecossistema Google	Veo 3.1 via Gemini	Integração com Drive, YouTube e Google Ads
Vídeos de treinamento com avatar corporativo	Synthesia / HeyGen	Avatares profissionais, 140+ idiomas, lip sync

Seção 8

IA para Outros Tipos de Conteúdo

Além de texto, imagem e vídeo, existe um ecossistema de ferramentas especializadas para cada tipo de conteúdo. Slides, flows, música, voz, design, código — cada nicho tem sua IA.

🎯 Slides e Apresentações

Você fornece um tópico ou texto bruto — a IA cria slides visualmente polidos em segundos. Exporta para PowerPoint/PDF. Zero habilidades de design necessárias.

Gamma · Beautiful.ai · Canva AI · Tome

🔄 Flows e Automações

IAs que desenham diagramas de fluxo, mapeiam processos e criam automações com agentes. Descreva o processo em linguagem natural — a IA estrutura o flow.

Miro AI · FigJam AI · Zapier AI · Make (Integromat)

🎵 Música e Áudio

Gere trilhas musicais completas descrevendo gênero, humor e duração. Sem royalties. Para trilhas de vídeo, podcasts e background de apresentações.

Suno · Udio · ElevenLabs · Mubert

🗣️ Voz e Narração

Texto-para-voz realista, clonagem de voz com poucos minutos de áudio, agentes de voz para atendimento. Suporte a 30+ idiomas com emoção e naturalidade.

ElevenLabs · Play.ht · Murf · Resemble AI

🎨 Design e UI/UX

Gere wireframes, mockups de interface e identidades visuais completas a partir de descrição em texto. Integra com Figma via plugins de IA.

Canva AI · Lovart · Framer AI · Galileo AI

💻 Código e Dev

Do autocomplete em tempo real a agentes que escrevem aplicações inteiras. Cursor, Windsurf e GitHub Copilot lideram para desenvolvimento assistido por IA.

GitHub Copilot · Cursor · Windsurf · Replit AI

📊 Planilhas e Dados

IA que entende planilhas em linguagem natural — "some a coluna B apenas onde a coluna C é maior que 100" — sem fórmulas manuais. Gera gráficos e insights automáticos.

Microsoft Copilot Excel · Gemini Sheets · Julius AI

📄 Documentos e Relatórios

Geração e edição iterativa de documentos longos — artigos, relatórios, contratos. Canvas (ChatGPT) e Gemini Canvas permitem edição colaborativa direto na interface.

ChatGPT Canvas · Gemini Canvas · Notion AI · Coda AI

Casos de uso combinando múltiplas ferramentas

📣

Marketing / Conteúdo Campanha completa de lançamento de produto — do zero ao publicado

1. Perplexity pesquisa o mercado e concorrentes. 2. Claude escreve o copy do e-mail, posts e landing page. 3. Midjourney gera as imagens do produto e do ambiente. 4. Suno cria a trilha da campanha. 5. Kling gera o vídeo de 30s com a música sincronizada. 6. Gamma monta o deck de aprovação interna. 7. Canva AI formata para todos os tamanhos de canal. Processo que levaria 2 semanas para uma agência agora leva 2 dias para um time interno.

PerplexityClaudeMidjourneySunoKlingGamma

🏗️

TI / Produto Digital MVP de aplicativo web — do conceito ao código em dias

1. Claude descreve a arquitetura e gera o PRD. 2. Galileo AI cria os wireframes de UX em minutos. 3. Cursor/Windsurf escreve o código front-end e back-end com supervisão humana. 4. Claude Code refatora e adiciona testes. 5. Runway gera um vídeo demo para stakeholders. 6. Gamma monta o pitch deck para aprovação. O que levaria um sprint de 2 semanas pode ter um MVP funcional em 2–3 dias.

ClaudeGalileo AICursorClaude CodeRunwayGamma

Seção 9 — Referência

Glossário do Módulo 2

Termos novos introduzidos neste módulo. Use como referência durante e após a leitura.

IA GenerativaTipo de IA

Cria conteúdo novo — texto, imagem, vídeo, código, música — aprendendo padrões de dados existentes. É o tipo mais recente e mais visível publicamente. Claude, ChatGPT, Midjourney e Sora são todos IA generativa.

IA PreditivaTipo de IA

Prevê o que vai acontecer com base em dados históricos. Não cria conteúdo — analisa e projeta. Usada silenciosamente em detecção de fraude, score de crédito, previsão de demanda e manutenção preditiva há décadas.

IA DiscriminativaTipo de IA

Separa e classifica — aprende as fronteiras entre categorias. Responde: "isso é spam ou não?" ou "isso é um defeito ou está OK?". É mais precisa que a generativa em classificação industrial.

TransformerArquitetura

Arquitetura de rede neural publicada pelo Google em 2017 que processa todo o texto em paralelo (não sequencialmente) usando o mecanismo de Attention. Base de quase todos os LLMs modernos.

Self-AttentionMecanismo

O mecanismo central do Transformer. Para cada palavra/token, calcula qual relação com cada outra palavra é relevante para entender o contexto. Permite ao modelo conectar "banco" com "rio" ou com "dinheiro" dependendo do contexto.

EmbeddingsRepresentação

Representação numérica de texto como vetores de alta dimensão (centenas a milhares de números). Palavras com significados similares têm embeddings próximos no espaço vetorial. Base do sistema de busca semântica em RAG.

Modelo de DifusãoArquitetura

Arquitetura usada em geração de imagens. Começa com ruído aleatório e aprende a removê-lo gradualmente, guiado pelo texto do prompt. Em dezenas de passos de refinamento, emerge uma imagem. Diferente do Transformer, não gera sequencialmente.

GANArquitetura

Rede Adversarial Generativa. Duas redes neurais que competem: uma geradora cria amostras novas, uma discriminadora tenta identificar o que é real vs. gerado. Essa competição melhora continuamente a qualidade da geração. Usada para imagens e vídeos antes dos modelos de difusão dominarem.

EmergênciaFenômeno

Capacidades que surgem espontaneamente em modelos de IA grandes, sem terem sido treinadas especificamente para isso. GPT-3 "aprendeu" aritmética sem treinamento explícito. Modelos maiores demonstram emergência em raciocínio, tradução e coding — fenômeno não completamente explicado.

AutoregressiveParadigma de geração

Modelos que geram conteúdo um elemento por vez, sequencialmente — cada token gerado depende dos anteriores. É o paradigma dos LLMs de texto. Contraponto: modelos de difusão, que refinam tudo em paralelo.

Extended ThinkingTécnica

Modo onde o modelo gera uma cadeia de raciocínio intermediária (não visível pelo usuário) antes de responder. Permite "se corrigir" antes de entregar a resposta. Disponível no Claude e na série o1/o3 da OpenAI. Aumenta qualidade em problemas difíceis, mas é mais lento e caro.

MultimodalCapacidade

Modelo ou sistema que processa e/ou gera múltiplos tipos de mídia: texto, imagem, áudio, vídeo, código — em uma única interface. Gemini 3.1 Pro, GPT-5 e Claude (desde março 2026) são exemplos de modelos multimodais.

LoRATécnica de treinamento

Low-Rank Adaptation. Técnica de fine-tuning eficiente que ajusta apenas uma pequena fração dos parâmetros do modelo — muito mais barata que retreinar tudo. Permite criar um "estilo visual personalizado" para geradores de imagem (ex: seu estilo de marca) com dezenas de imagens de exemplo.

E AGORA?

Módulo 3: Prompt Engineering

Agora que você entende como os modelos funcionam por dentro, vamos aprender a extrair o máximo deles. Técnicas de prompting, chain-of-thought, few-shot learning, e como estruturar instruções para diferentes tipos de tarefa.

CONTINUAR PARA O MÓDULO 3 →

LLMs, Transformers& IA Generativa