Veja o que Jiayi Pan disse no X:
“Nós reproduzimos o DeepSeek R1-Zero no jogo CountDown, e simplesmente funciona!”
“Através do aprendizado por reforço (RL), o modelo base de 3 bilhões de parâmetros desenvolve habilidades de auto-verificação e busca por conta própria.”
Em postagem posterior, afirma que foram necessárias 10 horas de H100, somando o custo de $30.
Esta conquista não só democratiza o acesso a avanços em IA, mas também lança luz sobre o poder do aprendizado por reforço em modelos menores.
Momento Aha do DeepSeek-Rl-Zero
Um fenômeno particularmente intrigante observado durante o treinamento do DeepSeek-Rl-Zero é a ocorrência de um “momento aha”.
Este momento ocorre em uma versão intermediária do modelo. Durante esta fase, o DeepSeek-Rl-Zero aprende a dedicar mais tempo de pensamento a um problema, reavaliando sua abordagem inicial.
Esse comportamento não é apenas um testemunho das crescentes habilidades de raciocínio do modelo, mas também um exemplo cativante de como o aprendizado por reforço pode levar a resultados inesperados e sofisticados.
Este momento é não apenas um “momento aha” para o modelo, mas também para os pesquisadores que observam seu comportamento.
Ele destaca o poder e a beleza do aprendizado por reforço: em vez de ensinarmos explicitamente ao modelo como resolver um problema, simplesmente fornecemos os incentivos certos, e ele desenvolve autonomamente estratégias avançadas de solução de problemas.
O “momento aha” serve como um lembrete poderoso do potencial do aprendizado por reforço para desbloquear novos níveis de inteligência em sistemas artificiais, abrindo caminho para modelos mais autônomos e adaptativos no futuro.
O Papel Crucial do Aprendizado por Reforço
O aprendizado por reforço (RL) tem se mostrado uma ferramenta poderosa para desenvolver habilidades avançadas em modelos de linguagem.
Ao fornecer uma função de recompensa bem definida — como a correção de respostas em tarefas matemáticas ou lógicas —, o modelo aprende a ajustar suas respostas de forma autônoma.
Isso permite que o modelo desenvolva um monólogo interno, aprimorando habilidades de autoverificação e refinamento de respostas.
A Aplicação Prática no Jogo “Countdown”
Jiayi Pan aplicou o aprendizado por reforço ao jogo “Countdown”, um desafio matemático onde jogadores combinam números usando operações aritméticas para atingir um número alvo.
Devido à natureza objetiva do jogo, em que há uma resposta correta clara, o modelo pôde receber sinais de recompensa precisos.
O Processo de Treinamento
O processo de treinamento seguiu etapas específicas:
- Início com Saídas Aleatórias:
O modelo inicialmente gerava respostas incorretas ou sem sentido. - Desenvolvimento de Estratégias:
Gradualmente, começou a adotar táticas como revisão de passos e busca ativa por soluções. - Evolução Autônoma:
Sem instruções explícitas, o modelo passou a autocorrigir-se, refinando suas respostas até alcançar a solução correta.
Um Exemplo Ilustrativo
- Usuário: “Usando os números 19, 36, 55 e 7, crie uma equação que resulte em 65.”
- Assistente:
“Vamos resolver passo a passo:
- Subtraia 19 de 55: 55 – 19 = 36.
- Some 36: 36 + 36 = 72.
- Subtraia 7: 72 – 7 = 65. Portanto, a equação é: (55 – 19) + 36 – 7 = 65.
Principais Descobertas e Implicações
- Importância do Tamanho do Modelo Base:
Modelos com mais de 1,5 bilhão de parâmetros começaram a demonstrar habilidades avançadas de raciocínio.
Modelos menores não alcançaram o mesmo desempenho, destacando a importância de um tamanho mínimo para emergir tais capacidades. - Versatilidade do Tipo de Modelo:
Tanto modelos base quanto modelos ajustados por instruções foram eficazes.
Embora os modelos ajustados por instruções aprendam mais rapidamente, ambos convergiram para níveis semelhantes de desempenho. - Independência do Algoritmo de Aprendizado por Reforço:
O tipo específico de algoritmo de RL (como PPO, GRPO ou PRIME) não impactou significativamente os resultados.
O elemento crucial é a aplicação do aprendizado por reforço em si. - Adaptação à Tarefa:
O modelo ajustou seu processo de raciocínio conforme a tarefa.
No “Countdown”, desenvolveu estratégias de busca e verificação de soluções.
Em tarefas de multiplicação, dividiu problemas em etapas menores para facilitar a resolução.
O Futuro dos Modelos de Linguagem Pequenos e Especializados
As descobertas de Jiayi Pan têm implicações profundas para o futuro da IA.
Demonstram que modelos menores podem ser altamente eficazes em tarefas específicas quando combinados com o aprendizado por reforço.
Isso abre caminho para o desenvolvimento de inúmeros modelos especializados, hiper ajustados para resolver problemas complexos em domínios restritos, democratizando o acesso a tecnologias avançadas de IA.
Esta conquista ressalta o poder do open source e como a colaboração e compartilhamento de conhecimento podem acelerar os avanços na inteligência artificial.
Publicação no X:
https://x.com/jiayi_pirate/status/1882839370505621655?s=46
Pesquisa, Edição, Formatação e Finalização:
Werney Lima, segunda-feira, 3 de fevereiro de 2025 – 08:07 hrs