Lançamento do OpenAI o3-mini

OpenAI o3-mini: O Novo Modelo de Raciocínio Econômico

Esta é uma tradução do anúncio oficial da OpenAI sobre o lançamento do o3-mini, seu mais recente modelo de linguagem focado em raciocínio STEM. O texto original foi publicado no blog da OpenAI em 31/01/2025.

Estamos lançando o OpenAI o3-mini, o modelo mais recente e econômico da nossa série de raciocínio, disponível tanto no ChatGPT quanto na API a partir de hoje. Apresentado previamente em dezembro de 2024, este modelo poderoso e rápido amplia os limites do que modelos pequenos podem alcançar, oferecendo capacidades excepcionais em STEM—com destaque especial para ciência, matemática e programação—tudo isso mantendo o baixo custo e a latência reduzida do OpenAI o1-mini.

O OpenAI o3-mini é nosso primeiro modelo pequeno de raciocínio que suporta recursos altamente requisitados pelos desenvolvedores, incluindo chamadas de função, Saídas Estruturadas e mensagens de desenvolvedor, tornando-o pronto para produção desde o lançamento. Assim como o OpenAI o1-mini e o OpenAI o1-preview, o o3-mini oferecerá suporte a streaming. Além disso, os desenvolvedores podem escolher entre três níveis de esforço de raciocínio—baixo, médio e alto—para otimizar conforme seus casos de uso específicos. Essa flexibilidade permite que o o3-mini “pense mais profundamente” ao lidar com desafios complexos ou priorize a velocidade quando a latência é uma preocupação. O o3-mini não suporta capacidades de visão, então os desenvolvedores devem continuar usando o OpenAI o1 para tarefas de raciocínio visual. O o3-mini está sendo lançado hoje na Chat Completions API, Assistants API e Batch API para desenvolvedores selecionados nos níveis de uso 3 a 5 da API.

Usuários do ChatGPT Plus, Team e Pro podem acessar o OpenAI o3-mini a partir de hoje, com acesso para Enterprise previsto para fevereiro. O o3-mini substituirá o OpenAI o1-mini no seletor de modelos, oferecendo limites de taxa mais altos e menor latência, tornando-o uma escolha atraente para tarefas de programação, STEM e resolução lógica de problemas. Como parte dessa atualização, estamos triplicando o limite de taxa para usuários Plus e Team, de 50 mensagens por dia com o o1-mini para 150 mensagens por dia com o o3-mini. Além disso, o o3-mini agora funciona com pesquisa para encontrar respostas atualizadas com links para fontes da web relevantes. Este é um protótipo inicial enquanto trabalhamos para integrar a pesquisa em nossos modelos de raciocínio.

A partir de hoje, usuários do plano gratuito também podem experimentar o OpenAI o3-mini selecionando “Reason” no compositor de mensagens ou regenerando uma resposta. Esta é a primeira vez que um modelo de raciocínio é disponibilizado para usuários gratuitos no ChatGPT.

Embora o OpenAI o1 continue sendo nosso modelo de raciocínio de conhecimento geral mais abrangente, o OpenAI o3-mini fornece uma alternativa especializada para domínios técnicos que exigem precisão e velocidade. No ChatGPT, o o3-mini utiliza um nível médio de esforço de raciocínio para equilibrar velocidade e precisão. Todos os usuários pagos também terão a opção de selecionar o o3-mini-high no seletor de modelos, uma versão de maior inteligência que leva um pouco mais de tempo para gerar respostas. Usuários Pro terão acesso ilimitado tanto ao o3-mini quanto ao o o3-mini-high.

Rápido, poderoso e otimizado para raciocínio em STEM

Semelhante ao seu antecessor OpenAI o1, o OpenAI o3-mini foi otimizado para raciocínio em STEM. O o3-mini, com esforço médio de raciocínio, iguala o desempenho do o1 em matemática, programação e ciência, enquanto fornece respostas mais rápidas. Avaliações por testadores especializados mostraram que o o3-mini gera respostas mais precisas e claras, com habilidades de raciocínio mais fortes do que o OpenAI o1-mini. Os testadores preferiram as respostas do o3-mini ao o1-mini em 56% das vezes e observaram uma redução de 39% em erros graves em perguntas difíceis do mundo real. Com esforço médio de raciocínio, o o3-mini iguala o desempenho do o1 em algumas das avaliações mais desafiadoras de raciocínio e inteligência, incluindo AIME e GPQA.

Matemática de competição (AIME 2024)

Matemática: Com baixo esforço de raciocínio, o OpenAI o3-mini apresenta desempenho comparável ao OpenAI o1-mini. Com esforço médio, o o3-mini atinge desempenho semelhante ao o1. Já com alto esforço de raciocínio, o o3-mini supera tanto o OpenAI o1-mini quanto o OpenAI o1, com as áreas sombreadas em cinza mostrando o desempenho da votação majoritária (consenso) com 64 amostras.

Questões de ciência em nível de doutorado (GPQA Diamond)

Ciência em nível de doutorado: Em perguntas de biologia, química e física em nível de doutorado, com baixo esforço de raciocínio, o OpenAI o3-mini supera o desempenho do OpenAI o1-mini. Com alto esforço, o o3-mini alcança um desempenho comparável ao o1.

FrontierMath

Matemática em nível de pesquisa: O OpenAI o3-mini, com alto esforço de raciocínio, supera seu antecessor no FrontierMath. No FrontierMath, quando solicitado a usar uma ferramenta Python, o o3-mini com alto esforço de raciocínio resolve mais de 32% dos problemas na primeira tentativa, incluindo mais de 28% dos problemas mais desafiadores (T3). Esses números são provisórios, e o gráfico acima mostra o desempenho sem ferramentas ou calculadora.

Programação competitiva (Codeforces)

Programação de competição: No Codeforces, OpenAI o3-mini obtém pontuações Elo progressivamente mais altas à medida que o esforço de raciocínio aumenta, sempre superando o o1-mini. Com esforço médio, ele iguala o desempenho do o1.

Engenharia de software (SWE-bench Verified)

Engenharia de software: O o3-mini é o nosso modelo mais avançado no SWEbench-verified. Para mais dados sobre os resultados do SWE-bench Verified com alto esforço de raciocínio, incluindo com o scaffold open-source Agentless (39%) e um scaffold interno de ferramentas (61%), consulte nosso system card.

LiveBench Coding

Programação LiveBench: O OpenAI o3-mini supera o o1-high mesmo com esforço médio de raciocínio, destacando sua eficiência em tarefas de programação. Com alto esforço de raciocínio, o o3-mini amplia ainda mais sua vantagem, alcançando um desempenho significativamente superior em métricas-chave.

Conhecimento geral

Conhecimento geral: O o3-mini supera o o1-mini em avaliações de conhecimento geral.

Avaliação de preferência humana

Preferência humana: Avaliações de testadores externos também mostram que o OpenAI o3-mini gera respostas mais precisas e claras, com habilidades de raciocínio mais fortes do que o OpenAI o1-mini, especialmente para STEM. Os testadores preferiram as respostas do o3-mini ao o1-mini 56% das vezes e observaram uma redução de 39% em erros graves em perguntas difíceis do mundo real.

Velocidade e desempenho do modelo

Com inteligência comparável ao OpenAI o1, o OpenAI o3-mini oferece desempenho mais rápido e maior eficiência. Além das avaliações STEM destacadas acima, o o3-mini demonstra resultados superiores em avaliações adicionais de matemática e factualidade com esforço médio de raciocínio. Nos testes A/B, o o3-mini forneceu respostas 24% mais rápidas do que o o1-mini, com um tempo médio de resposta de 7,7 segundos em comparação com 10,16 segundos.

Latência: O o3-mini apresenta um tempo médio 2500ms mais rápido para o primeiro token em comparação com o o1-mini.

Segurança

Uma das principais técnicas utilizadas para ensinar o OpenAI o3-mini a responder com segurança é o alinhamento deliberativo, no qual treinamos o modelo para raciocinar sobre especificações de segurança escritas por humanos antes de responder a solicitações dos usuários. Semelhante ao OpenAI o1, o o3-mini supera significativamente o GPT-4o em avaliações desafiadoras de segurança e jailbreak.

O que vem a seguir

O lançamento do OpenAI o3-mini marca mais um passo na missão da OpenAI de expandir os limites da inteligência econômica. Mantendo a qualidade e reduzindo custos, continuamos comprometidos em desenvolver modelos que equilibrem inteligência, eficiência e segurança em larga escala.

Pesquisa, Edição, formatação e finalização:
Werney A. Lima, sábado, 1 de fevereiro de 2025 – 10:18 (sábado)
Fonte: https://openai.com/index/openai-o3-mini/