Lab 004: Como LLMs Funcionam¶
O que Você Vai Aprender¶
- O que realmente é um Modelo de Linguagem Grande (LLM) por baixo dos panos
- Como o treinamento funciona: pré-treinamento, ajuste fino, RLHF
- O que tokens, janelas de contexto e temperatura significam na prática
- Por que LLMs alucinam — e como mitigar isso
- A diferença entre modelos: GPT-4o, Phi-4, Llama, Claude
Introdução¶
Você provavelmente já usou ChatGPT ou GitHub Copilot. Mas o que realmente acontece quando você digita uma mensagem e recebe uma resposta? Entender a mecânica dos LLMs torna você um construtor de agentes dramaticamente melhor — você saberá por que certos prompts funcionam, por que agentes cometem erros e como projetar contornando suas limitações.
Parte 1: O que é um Modelo de Linguagem Grande?¶
Um LLM é uma rede neural treinada para prever o próximo token dada uma sequência de tokens.
Só isso. Todo o resto — raciocínio, geração de código, sumarização, chat — é uma capacidade emergente que surge de fazer isso em escala massiva com enormes quantidades de texto.
Tokens¶
Um token é a unidade básica que um LLM processa. É aproximadamente ¾ de uma palavra (cerca de 4 caracteres).
Por que tokens importam para agentes
- Janelas de contexto são medidas em tokens, não em palavras
- Custos de API são cobrados por token
- Documentos longos precisam ser divididos em pedaços para caber na janela de contexto
O ciclo de predição¶
Quando você envia uma mensagem, o LLM:
- Converte seu texto em uma sequência de IDs de tokens
- Passa-os através de bilhões de operações matemáticas (camadas transformer)
- Produz uma distribuição de probabilidade sobre todo o vocabulário (~100.000 tokens)
- Amostra o próximo token com base nessa distribuição
- Anexa-o à sequência e repete a partir do passo 2
O LLM não "sabe" fatos — ele aprendeu padrões estatísticos de texto. Quando ele diz "Paris", é porque "Paris" quase sempre segue aquela frase nos seus dados de treinamento.
🤔 Verifique Seu Entendimento
Um LLM responde corretamente "A capital da França é Paris." O modelo sabe esse fato da mesma forma que um humano?
Resposta
Não. O LLM aprendeu padrões estatísticos dos seus dados de treinamento — "Paris" quase sempre segue "A capital da França é" no texto em que ele foi treinado. Ele prevê o próximo token mais provável, não fatos verificados. É por isso que LLMs também podem produzir respostas erradas com confiança (alucinações).
Parte 2: Treinando um LLM¶
Estágio 1 — Pré-treinamento¶
O modelo lê trilhões de tokens da internet, livros, código e artigos científicos. Ele aprende estrutura da linguagem, fatos, padrões de raciocínio e conhecimento geral puramente prevendo o próximo token.
Training data: Wikipedia + books + GitHub + web pages + ...
Goal: minimize prediction error across all that text
Result: a "base model" that can complete text
GPT-4o, Llama 3, Phi-4 todos começam como modelos base.
Estágio 2 — Ajuste Fino por Instrução (SFT)¶
O modelo base é treinado com exemplos de conversas — pares (prompt, resposta ideal). Isso o ensina a ser útil, seguir instruções e responder de forma conversacional.
Estágio 3 — RLHF (Aprendizado por Reforço com Feedback Humano)¶
Avaliadores humanos comparam pares de respostas e escolhem a melhor. Um modelo de recompensa é treinado com essas preferências. O LLM é então ajustado para maximizar a pontuação do modelo de recompensa.
É por isso que o ChatGPT parece mais polido e alinhado do que um modelo base bruto.
🤔 Verifique Seu Entendimento
Qual é o propósito do RLHF (Aprendizado por Reforço com Feedback Humano) no treinamento de LLMs, e por que o pré-treinamento sozinho não consegue alcançar o mesmo resultado?
Resposta
O RLHF alinha o modelo com preferências humanas — tornando as respostas mais úteis, seguras e conversacionais. O pré-treinamento apenas ensina o modelo a prever o próximo token a partir de padrões de texto. Sem o RLHF, o modelo pode produzir respostas tecnicamente corretas mas inúteis, inseguras ou com formatação estranha.
Parte 3: Parâmetros-Chave¶
Janela de Contexto¶
A janela de contexto é quanto texto o modelo pode "ver" de uma vez — sua memória de trabalho.
| Modelo | Janela de Contexto |
|---|---|
| GPT-4o | 128.000 tokens (~96.000 palavras) |
| GPT-4o-mini | 128.000 tokens |
| Phi-4 | 16.000 tokens |
| Llama 3.3 70B | 128.000 tokens |
| Claude 3.5 Sonnet | 200.000 tokens |
Janela de contexto ≠ memória ilimitada
O modelo lê a janela de contexto inteira a cada requisição. Contexto mais longo = mais lento + mais caro. Agentes usam RAG e sumarização para gerenciar conversas longas.
Temperatura¶
Temperatura controla o quão aleatória é a saída.
# Deterministic (good for structured data extraction)
response = client.chat.completions.create(
model="gpt-4o",
temperature=0.0,
messages=[...]
)
# Creative (good for ideas/drafts)
response = client.chat.completions.create(
model="gpt-4o",
temperature=0.8,
messages=[...]
)
Top-p (amostragem por núcleo)¶
Uma alternativa à temperatura. Amostra apenas do menor conjunto de tokens cuja probabilidade cumulativa excede top_p.
top_p=0.1→ muito conservadortop_p=0.9→ permite saídas diversas
🤔 Verifique Seu Entendimento
Você está construindo um agente que gera consultas SQL a partir de linguagem natural. Deve usar temperatura alta ou baixa, e por quê?
Resposta
Use temperatura baixa (0.0). Consultas SQL precisam ser determinísticas e sintaticamente corretas. Temperatura alta introduz aleatoriedade que pode produzir SQL inválido ou inconsistente. Para tarefas de saída estruturada como geração de código, extração de dados e SQL, sempre prefira temperature=0.
Parte 4: Por que LLMs Alucinam¶
Alucinação (gerar informação falsa que soa confiante) acontece porque:
- O modelo prevê texto provável, não texto verdadeiro. Uma resposta que parece plausível pode ter pontuação mais alta do que "Eu não sei."
- Os dados de treinamento têm lacunas e ruído. Se a web diz algo errado com frequência suficiente, o modelo aprendeu isso.
- Sem memória externa. O modelo não "verifica" fatos — ele gera a partir de padrões.
Como agentes mitigam alucinação¶
| Técnica | Como ajuda |
|---|---|
| RAG | Dá ao modelo documentos reais para citar em vez de depender dos dados de treinamento |
| Chamada de ferramentas | Permite que o modelo chame APIs/bancos de dados para dados em tempo real |
| Temperatura baixa | Reduz criatividade quando precisão importa |
| Regras no prompt de sistema | "Nunca invente dados; use apenas saídas de ferramentas" |
| Saída estruturada | Força o modelo a produzir esquema JSON — mais fácil de validar |
| Avaliação | Mede fundamentação, coerência e factualidade automaticamente |
Parte 5: Escolhendo um Modelo¶
Nem toda tarefa precisa do GPT-4o. Escolher o modelo certo economiza dinheiro e latência.
| Modelo | Melhor para | Velocidade | Custo |
|---|---|---|---|
| GPT-4o | Raciocínio complexo, contexto longo, multimodal | Média | $$$ |
| GPT-4o-mini | Maioria das tarefas do dia a dia | Rápida | $ |
| Phi-4 (Microsoft) | No dispositivo, baixo custo, surpreendentemente capaz | Muito rápida | Gratuito (local) |
| Llama 3.3 70B | Open-source, auto-hospedagem, tarefas grandes | Média | Gratuito (auto-hospedagem) |
| o1 / o3 | Matemática, código, raciocínio profundo multi-etapas | Lenta | $$$$ |
Comece barato, escale quando necessário
Comece com gpt-4o-mini ou Phi-4. Só atualize para gpt-4o ou o1 se a tarefa claramente exigir.
Parte 6: A Arquitetura Transformer (simplificada)¶
Você não precisa entender a matemática, mas conhecer o insight principal ajuda:
Auto-atenção é a mágica. Para cada token, o modelo calcula quanta "atenção" prestar a cada outro token no contexto.
É por isso que LLMs entendem contexto tão bem — cada palavra é interpretada em relação a todas as outras palavras.
🤔 Verifique Seu Entendimento
Na frase "O banco perto do rio era íngreme," como o mecanismo de auto-atenção ajuda o modelo a entender que "banco" significa uma margem de rio e não uma instituição financeira?
Resposta
A auto-atenção calcula quanta "atenção" cada token deve prestar a cada outro token. Ao processar "banco," o modelo presta forte atenção a "rio" — a relação contextual entre essas palavras muda a interpretação para margem de rio em vez de instituição financeira. Cada palavra é interpretada em relação a todas as outras palavras no contexto.
🧠 Verificação de Conhecimento¶
Q1 (Múltipla Escolha): Aproximadamente quantos tokens tem a frase 'Hello world'?
- A) 1 token
- B) 2 tokens
- C) 6 tokens
- D) 10 tokens
✅ Revelar Resposta
Correta: B — 2 tokens
"Hello" é 1 token e "world" é 1 token. Como regra geral, 1 token ≈ 4 caracteres ≈ ¾ de uma palavra. Um documento de 1.000 palavras tem aproximadamente 1.300 tokens. Isso importa tanto para custo (APIs cobram por token) quanto para limites da janela de contexto (GPT-4o tem uma janela de contexto de 128K tokens).
Q2 (Múltipla Escolha): Você está chamando um LLM para extração de dados estruturados (por exemplo, extraindo JSON de um e-mail de cliente). Qual configuração de temperatura é mais apropriada?
- A) temperature = 1.5 (alta criatividade)
- B) temperature = 0.8 (criatividade moderada)
- C) temperature = 0.0 (determinístico)
- D) temperature = 2.0 (aleatoriedade máxima)
✅ Revelar Resposta
Correta: C — temperature = 0.0
Quando precisão e reprodutibilidade importam mais do que criatividade, use temperature=0. Isso faz o modelo sempre escolher o próximo token mais provável — então a mesma entrada sempre produz a mesma saída. Para escrita criativa: use 0.7–1.0. Para extração de dados, geração de SQL ou formatação de argumentos de ferramentas: use 0.
Q3 (Múltipla Escolha): Um LLM afirma com confiança que uma cidade fictícia no Brasil tem uma população de 2,3 milhões. Esta cidade não existe. Qual é a causa principal?
- A) A janela de contexto do modelo era muito pequena
- B) A temperatura estava configurada muito alta
- C) O modelo prevê texto com aparência provável em vez de fatos verificados — ele fez correspondência de padrões com cidades reais similares
- D) O prompt de sistema estava faltando
✅ Revelar Resposta
Correta: C — LLMs preveem texto provável, não texto factual
LLMs são treinados para prever o próximo token que é estatisticamente provável dado o contexto. Uma cidade inventada que se assemelha a cidades reais no padrão ("São Paulo tem 12M, Rio tem 6M...") leva o modelo a gerar uma resposta que soa plausível mas é fabricada. Isso é alucinação. A solução é RAG ou chamada de ferramentas — forçar o modelo a consultar fatos em vez de prevê-los.
Resumo¶
| Conceito | Principal aprendizado |
|---|---|
| Tokens | ~4 caracteres cada; janelas de contexto e custos são medidos em tokens |
| Predição | LLMs preveem o próximo token — raciocínio é emergente, não programado |
| Treinamento | Pré-treinamento → ajuste fino → RLHF produz assistentes úteis |
| Temperatura | 0 = determinístico; maior = mais criativo |
| Janela de contexto | A memória de trabalho do modelo; não persiste entre requisições |
| Alucinação | Causada por correspondência de padrões, não verificação de fatos — mitigada com ferramentas + RAG |
Próximos Passos¶
→ Lab 005 — Engenharia de Prompt — Agora que você sabe como LLMs funcionam, aprenda a escrever prompts que obtêm de forma confiável a saída desejada.