Jiayi Pan Reproduz “Momento Aha” do DeepSeek por Apenas $30

Veja o que Jiayi Pan disse no X:

“Nós reproduzimos o DeepSeek R1-Zero no jogo CountDown, e simplesmente funciona!”

“Através do aprendizado por reforço (RL), o modelo base de 3 bilhões de parâmetros desenvolve habilidades de auto-verificação e busca por conta própria.”


Em postagem posterior, afirma que foram necessárias 10 horas de H100, somando o custo de $30.

Esta conquista não só democratiza o acesso a avanços em IA, mas também lança luz sobre o poder do aprendizado por reforço em modelos menores.


Momento Aha do DeepSeek-Rl-Zero

Um fenômeno particularmente intrigante observado durante o treinamento do DeepSeek-Rl-Zero é a ocorrência de um “momento aha”.

Este momento ocorre em uma versão intermediária do modelo. Durante esta fase, o DeepSeek-Rl-Zero aprende a dedicar mais tempo de pensamento a um problema, reavaliando sua abordagem inicial.

Esse comportamento não é apenas um testemunho das crescentes habilidades de raciocínio do modelo, mas também um exemplo cativante de como o aprendizado por reforço pode levar a resultados inesperados e sofisticados.

Este momento é não apenas um “momento aha” para o modelo, mas também para os pesquisadores que observam seu comportamento.

Ele destaca o poder e a beleza do aprendizado por reforço: em vez de ensinarmos explicitamente ao modelo como resolver um problema, simplesmente fornecemos os incentivos certos, e ele desenvolve autonomamente estratégias avançadas de solução de problemas.

O “momento aha” serve como um lembrete poderoso do potencial do aprendizado por reforço para desbloquear novos níveis de inteligência em sistemas artificiais, abrindo caminho para modelos mais autônomos e adaptativos no futuro.


O Papel Crucial do Aprendizado por Reforço

O aprendizado por reforço (RL) tem se mostrado uma ferramenta poderosa para desenvolver habilidades avançadas em modelos de linguagem.

Ao fornecer uma função de recompensa bem definida — como a correção de respostas em tarefas matemáticas ou lógicas —, o modelo aprende a ajustar suas respostas de forma autônoma.

Isso permite que o modelo desenvolva um monólogo interno, aprimorando habilidades de autoverificação e refinamento de respostas.


A Aplicação Prática no Jogo “Countdown”

Jiayi Pan aplicou o aprendizado por reforço ao jogo “Countdown”, um desafio matemático onde jogadores combinam números usando operações aritméticas para atingir um número alvo.

Devido à natureza objetiva do jogo, em que há uma resposta correta clara, o modelo pôde receber sinais de recompensa precisos.

O Processo de Treinamento

O processo de treinamento seguiu etapas específicas:

  1. Início com Saídas Aleatórias:
    O modelo inicialmente gerava respostas incorretas ou sem sentido.
  2. Desenvolvimento de Estratégias:
    Gradualmente, começou a adotar táticas como revisão de passos e busca ativa por soluções.
  3. Evolução Autônoma:
    Sem instruções explícitas, o modelo passou a autocorrigir-se, refinando suas respostas até alcançar a solução correta.

Um Exemplo Ilustrativo

  • Usuário: “Usando os números 19, 36, 55 e 7, crie uma equação que resulte em 65.”
  • Assistente:
    “Vamos resolver passo a passo:
  1. Subtraia 19 de 55: 55 – 19 = 36.
  2. Some 36: 36 + 36 = 72.
  3. Subtraia 7: 72 – 7 = 65. Portanto, a equação é: (55 – 19) + 36 – 7 = 65.

Principais Descobertas e Implicações

  • Importância do Tamanho do Modelo Base:
    Modelos com mais de 1,5 bilhão de parâmetros começaram a demonstrar habilidades avançadas de raciocínio.
    Modelos menores não alcançaram o mesmo desempenho, destacando a importância de um tamanho mínimo para emergir tais capacidades.
  • Versatilidade do Tipo de Modelo:
    Tanto modelos base quanto modelos ajustados por instruções foram eficazes.
    Embora os modelos ajustados por instruções aprendam mais rapidamente, ambos convergiram para níveis semelhantes de desempenho.
  • Independência do Algoritmo de Aprendizado por Reforço:
    O tipo específico de algoritmo de RL (como PPO, GRPO ou PRIME) não impactou significativamente os resultados.
    O elemento crucial é a aplicação do aprendizado por reforço em si.
  • Adaptação à Tarefa:
    O modelo ajustou seu processo de raciocínio conforme a tarefa.
    No “Countdown”, desenvolveu estratégias de busca e verificação de soluções.
    Em tarefas de multiplicação, dividiu problemas em etapas menores para facilitar a resolução.

O Futuro dos Modelos de Linguagem Pequenos e Especializados

As descobertas de Jiayi Pan têm implicações profundas para o futuro da IA.

Demonstram que modelos menores podem ser altamente eficazes em tarefas específicas quando combinados com o aprendizado por reforço.

Isso abre caminho para o desenvolvimento de inúmeros modelos especializados, hiper ajustados para resolver problemas complexos em domínios restritos, democratizando o acesso a tecnologias avançadas de IA.


Esta conquista ressalta o poder do open source e como a colaboração e compartilhamento de conhecimento podem acelerar os avanços na inteligência artificial.

Publicação no X:
https://x.com/jiayi_pirate/status/1882839370505621655?s=46


Pesquisa, Edição, Formatação e Finalização:
Werney Lima, segunda-feira, 3 de fevereiro de 2025 – 08:07 hrs

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *