Jiayi Pan Reproduz “Momento Aha” do DeepSeek por Apenas $30

Veja o que Jiayi Pan disse no X:

“Nós reproduzimos o DeepSeek R1-Zero no jogo CountDown, e simplesmente funciona!”

“Através do aprendizado por reforço (RL), o modelo base de 3 bilhões de parâmetros desenvolve habilidades de auto-verificação e busca por conta própria.”

Em postagem posterior, afirma que foram necessárias 10 horas de H100, somando o custo de $30.

Esta conquista não só democratiza o acesso a avanços em IA, mas também lança luz sobre o poder do aprendizado por reforço em modelos menores.

Momento Aha do DeepSeek-Rl-Zero

Um fenômeno particularmente intrigante observado durante o treinamento do DeepSeek-Rl-Zero é a ocorrência de um “momento aha”.

Este momento ocorre em uma versão intermediária do modelo. Durante esta fase, o DeepSeek-Rl-Zero aprende a dedicar mais tempo de pensamento a um problema, reavaliando sua abordagem inicial.

Esse comportamento não é apenas um testemunho das crescentes habilidades de raciocínio do modelo, mas também um exemplo cativante de como o aprendizado por reforço pode levar a resultados inesperados e sofisticados.

Este momento é não apenas um “momento aha” para o modelo, mas também para os pesquisadores que observam seu comportamento.

Ele destaca o poder e a beleza do aprendizado por reforço: em vez de ensinarmos explicitamente ao modelo como resolver um problema, simplesmente fornecemos os incentivos certos, e ele desenvolve autonomamente estratégias avançadas de solução de problemas.

O “momento aha” serve como um lembrete poderoso do potencial do aprendizado por reforço para desbloquear novos níveis de inteligência em sistemas artificiais, abrindo caminho para modelos mais autônomos e adaptativos no futuro.

O Papel Crucial do Aprendizado por Reforço

O aprendizado por reforço (RL) tem se mostrado uma ferramenta poderosa para desenvolver habilidades avançadas em modelos de linguagem.

Ao fornecer uma função de recompensa bem definida — como a correção de respostas em tarefas matemáticas ou lógicas —, o modelo aprende a ajustar suas respostas de forma autônoma.

Isso permite que o modelo desenvolva um monólogo interno, aprimorando habilidades de autoverificação e refinamento de respostas.

A Aplicação Prática no Jogo “Countdown”

Jiayi Pan aplicou o aprendizado por reforço ao jogo “Countdown”, um desafio matemático onde jogadores combinam números usando operações aritméticas para atingir um número alvo.

Devido à natureza objetiva do jogo, em que há uma resposta correta clara, o modelo pôde receber sinais de recompensa precisos.

O Processo de Treinamento

O processo de treinamento seguiu etapas específicas:

Início com Saídas Aleatórias:
O modelo inicialmente gerava respostas incorretas ou sem sentido.
Desenvolvimento de Estratégias:
Gradualmente, começou a adotar táticas como revisão de passos e busca ativa por soluções.
Evolução Autônoma:
Sem instruções explícitas, o modelo passou a autocorrigir-se, refinando suas respostas até alcançar a solução correta.

Um Exemplo Ilustrativo

Usuário: “Usando os números 19, 36, 55 e 7, crie uma equação que resulte em 65.”
Assistente:
“Vamos resolver passo a passo:

Subtraia 19 de 55: 55 – 19 = 36.
Some 36: 36 + 36 = 72.
Subtraia 7: 72 – 7 = 65. Portanto, a equação é: (55 – 19) + 36 – 7 = 65.

Principais Descobertas e Implicações

Importância do Tamanho do Modelo Base:
Modelos com mais de 1,5 bilhão de parâmetros começaram a demonstrar habilidades avançadas de raciocínio.
Modelos menores não alcançaram o mesmo desempenho, destacando a importância de um tamanho mínimo para emergir tais capacidades.
Versatilidade do Tipo de Modelo:
Tanto modelos base quanto modelos ajustados por instruções foram eficazes.
Embora os modelos ajustados por instruções aprendam mais rapidamente, ambos convergiram para níveis semelhantes de desempenho.
Independência do Algoritmo de Aprendizado por Reforço:
O tipo específico de algoritmo de RL (como PPO, GRPO ou PRIME) não impactou significativamente os resultados.
O elemento crucial é a aplicação do aprendizado por reforço em si.
Adaptação à Tarefa:
O modelo ajustou seu processo de raciocínio conforme a tarefa.
No “Countdown”, desenvolveu estratégias de busca e verificação de soluções.
Em tarefas de multiplicação, dividiu problemas em etapas menores para facilitar a resolução.

O Futuro dos Modelos de Linguagem Pequenos e Especializados

As descobertas de Jiayi Pan têm implicações profundas para o futuro da IA.

Demonstram que modelos menores podem ser altamente eficazes em tarefas específicas quando combinados com o aprendizado por reforço.

Isso abre caminho para o desenvolvimento de inúmeros modelos especializados, hiper ajustados para resolver problemas complexos em domínios restritos, democratizando o acesso a tecnologias avançadas de IA.

Esta conquista ressalta o poder do open source e como a colaboração e compartilhamento de conhecimento podem acelerar os avanços na inteligência artificial.

Publicação no X:
https://x.com/jiayi_pirate/status/1882839370505621655?s=46

Pesquisa, Edição, Formatação e Finalização:
Werney Lima, segunda-feira, 3 de fevereiro de 2025 – 08:07 hrs