A Anthropic lança o Claude 3

Esse post é uma tradução da página do site da Anthropic relativa ao lançamento do Claude 3.

Hoje,(04/03/2024) estamos anunciando a família de modelos Claude 3, que estabelece novos padrões da indústria em uma ampla gama de tarefas cognitivas.

Família de modelos Claude 3

A família inclui três modelos de ponta em ordem crescente de capacidade:

Claude 3 Haiku,
Claude 3 Sonnet e
Claude 3 Opus.

Cada modelo sucessivo oferece desempenho cada vez mais poderoso, permitindo que os usuários selecionem o equilíbrio ideal entre inteligência, velocidade e custo para sua aplicação específica.

Opus e Sonnet já estão disponíveis para uso em claude.ai e na API Claude, que agora está disponível em 159 países. Haiku estará disponível em breve.

Um novo padrão de inteligência

Opus, nosso modelo mais inteligente, supera seus pares na maioria dos benchmarks comuns de avaliação para sistemas de IA, incluindo conhecimento especializado de nível de graduação (MMLU), raciocínio de especialistas de nível de pós-graduação (GPQA), matemática básica (GSM8K) e mais.

Ele exibe níveis quase humanos de compreensão e fluência em tarefas complexas, liderando a fronteira da inteligência geral.

Todos os modelos Claude 3 mostram capacidades aumentadas em análise e previsão, criação de conteúdo, geração de código e conversação em idiomas não ingleses como espanhol, japonês e francês.

Abaixo está uma comparação dos modelos Claude 3 com os de nossos concorrentes em vários benchmarks:

Velocidade

Os modelos Claude 3 podem alimentar chats ao vivo com clientes, preenchimentos automáticos e tarefas de extração de dados onde as respostas devem ser imediatas e em tempo real.

Haiku é o modelo mais rápido e mais econômico do mercado para sua categoria de inteligência.

Ele pode ler um artigo de pesquisa denso em informações e dados no arXiv (~10k tokens) com gráficos e diagramas em menos de três segundos.

Após o lançamento, esperamos melhorar ainda mais o desempenho.

Para a grande maioria das cargas de trabalho, Sonnet é 2x mais rápido que Claude 2 e Claude 2.1 com níveis mais altos de inteligência.

Ele se destaca em tarefas que exigem respostas rápidas, como recuperação de conhecimento ou automação de vendas.

Opus oferece velocidades semelhantes a Claude 2 e 2.1, mas com níveis muito mais altos de inteligência.

Capacidades de visão robustas

Os modelos Claude 3 têm capacidades de visão sofisticadas em pé de igualdade com outros modelos líderes.

Eles podem processar uma ampla gama de formatos visuais, incluindo fotos, gráficos, diagramas técnicos e gráficos.

Estamos particularmente entusiasmados em fornecer esta nova modalidade aos nossos clientes empresariais, alguns dos quais têm até 50% de suas bases de conhecimento em vários formatos como PDFs, fluxogramas ou slides de apresentação.

Menos recusas

Modelos anteriores da Claude frequentemente faziam recusas desnecessárias que sugeriam falta de compreensão contextual.

Fizemos progressos significativos nesta área: Opus, Sonnet e Haiku são significativamente menos propensos a se recusar a responder a prompts que ultrapassam os limites do sistema do que gerações anteriores de modelos.

Como mostrado abaixo, os modelos Claude 3 mostram uma compreensão mais sutil das solicitações, reconhecem danos reais e recusam-se a responder a prompts inofensivos muito menos frequentemente.

Precisão melhorada

Empresas de todos os tamanhos contam com nossos modelos para atender seus clientes, tornando imperativo que as saídas de nosso modelo mantenham alta precisão em escala.

Para avaliar isso, usamos um grande conjunto de perguntas complexas e factuais que visam fraquezas conhecidas nos modelos atuais.

Categorizamos as respostas em respostas corretas, respostas incorretas (ou alucinações) e admissões de incerteza, onde o modelo diz que não sabe a resposta em vez de fornecer informações incorretas.

Comparado com Claude 2.1, Opus demonstra um aumento de duas vezes na precisão (ou respostas corretas) nessas desafiadoras perguntas abertas, ao mesmo tempo que exibe níveis reduzidos de respostas incorretas.

Verificação da Resposta

Além de produzir respostas mais confiáveis, em breve permitiremos citações em nossos modelos Claude 3 para que eles possam apontar frases precisas em material de referência para verificar suas respostas.

Contexto longo e recordação quase perfeita

A família de modelos Claude 3, inicialmente, oferecerá uma janela de contexto de 200K no lançamento.

No entanto, os três modelos são capazes de aceitar entradas superiores a 1 milhão de tokens e podemos disponibilizar isso para clientes selecionados que necessitam de maior capacidade de processamento.

Para processar prompts de contexto longo de forma eficaz, os modelos requerem capacidades robustas de recordação.

A avaliação ‘Needle In A Haystack’ (NIAH) mede a capacidade de um modelo de lembrar informações com precisão de um vasto corpus de dados.

Aumentamos a robustez desse benchmark usando um dos 30 pares de agulhas/perguntas aleatórias por prompt e testando em um corpus de documentos diversificado fornecido por crowdsourcing.

Claude 3 Opus não apenas alcançou uma recordação quase perfeita, ultrapassando 99% de precisão, mas em alguns casos, até identificou as limitações da avaliação em si ao reconhecer que a frase “agulha” parecia ser artificialmente inserida no texto original por um humano.

Design responsável

Desenvolvemos a família de modelos Claude 3 para ser tão confiável quanto capaz.

Temos várias equipes dedicadas que rastreiam e mitigam um amplo espectro de riscos, desde desinformação e CSAM até uso biológico indevido, interferência em eleições e habilidades de replicação autônoma.

Continuamos a desenvolver métodos como a IA Constitucional que melhoram a segurança e transparência de nossos modelos, e ajustamos nossos modelos para mitigar problemas de privacidade que poderiam ser levantados por novas modalidades.

Abordar viés em modelos cada vez mais sofisticados é um esforço contínuo e fizemos avanços com este novo lançamento.

Como mostrado na ficha do modelo, Claude 3 mostra menos viés do que nossos modelos anteriores de acordo com o Benchmark de Viés para Resposta a Perguntas (BBQ).

Continuamos comprometidos em avançar técnicas que reduzam viés e promovam uma maior neutralidade em nossos modelos, garantindo que eles não sejam inclinados para qualquer posição partidária específica.

Embora a família de modelos Claude 3 tenha avançado em medidas-chave de conhecimento biológico, conhecimento relacionado à cibersegurança e autonomia em comparação com modelos anteriores, permanece no Nível de Segurança de IA 2 (ASL-2) conforme nossa Política de Escalonamento Responsável.

Nossas avaliações de equipe vermelha (realizadas de acordo com nossos compromissos da Casa Branca e a Ordem Executiva dos EUA de 2023) concluíram que os modelos apresentam potencial negligenciável de risco catastrófico neste momento.

Continuaremos a monitorar cuidadosamente os modelos futuros para avaliar sua proximidade com o limite ASL-3. Mais detalhes de segurança estão disponíveis na ficha do modelo Claude 3.

Mais fácil de usar

Os modelos Claude 3 são melhores em seguir instruções complexas e multietapas. Eles são particularmente hábeis em aderir à voz e diretrizes de resposta da marca e desenvolver experiências voltadas para o cliente em que nossos usuários podem confiar.

Além disso, os modelos Claude 3 são melhores em produzir saída estruturada popular em formatos como JSON, tornando mais simples instruir Claude para casos de uso como classificação de linguagem natural e análise de sentimentos.

Detalhes do modelo

Claude 3 Opus é nosso modelo mais inteligente, com melhor desempenho no mercado em tarefas altamente complexas.

Ele pode navegar por prompts abertos e cenários nunca vistos com fluência notável e compreensão semelhante à humana.

Claude 3 Opus

Custo

$15 (input $/milhão de tokens)
$75 (output $/milhão de tokens)

Janela de contexto 200K*

Usos potenciais

Automatização de tarefas: planejar e executar ações complexas através de APIs e bancos de dados, codificação interativa.
P&D: revisão de pesquisa, brainstorming e geração de hipóteses, descoberta de medicamentos.
Estratégia: análise avançada de gráficos e gráficos, finanças e tendências de mercado, previsão.

Diferencial

Inteligência mais elevada do que qualquer outro modelo disponível.
1M tokens disponíveis para casos de uso específicos.

Claude 3 Sonnet

Claude 3 Sonnet atinge o equilíbrio ideal entre inteligência e velocidade — especialmente para cargas de trabalho empresariais.

Ele oferece um desempenho sólido a um custo menor em comparação com seus pares e é projetado para alta resistência em implantações de IA em grande escala.

Custo

$3 (input $/milhão de tokens)
$15 (output $/milhão de tokens)

Janela de contexto 200K

Usos potenciais

Processamento de dados: RAG ou pesquisa e recuperação sobre vasta quantidade de conhecimento
Vendas: recomendações de produtos, previsão, marketing direcionado.
Tarefas de economia de tempo: geração de código, controle de qualidade, análise de texto de imagens.

Diferencial

Mais acessível do que outros modelos com inteligência semelhante; melhor para escalar.

Claude 3 Haiku

Claude 3 Haiku é nosso modelo mais rápido e compacto para responsividade quase instantânea.

Ele responde a consultas e solicitações simples com velocidade incomparável.

Os usuários poderão criar experiências de IA perfeitas que imitam interações humanas.

Custo

$0.25 (input $/milhão de tokens)
$1.25 (output $/milhão de tokens)

Janela de contexto 200K

Usos potenciais

Interações com clientes: suporte rápido e preciso em interações ao vivo, traduções.
Moderação de conteúdo: detectar comportamentos arriscados ou solicitações de clientes
Tarefas de economia de custos: logística otimizada, gerenciamento de inventário, extrair conhecimento de dados não estruturados

Diferencial

Mais inteligente, mais rápido e mais acessível do que outros modelos em sua categoria de inteligência.

Disponibilidade dos modelos

Opus e Sonnet estão disponíveis para uso hoje em nossa API, que agora está disponível, permitindo que os desenvolvedores se inscrevam e comecem a usar esses modelos imediatamente.

Haiku estará disponível em breve.

Sonnet está alimentando a experiência gratuita em claude.ai, com Opus disponível para assinantes do Claude Pro.

Sonnet também está disponível hoje através do Amazon Bedrock e em visualização privada no Modelo Garden do Google Cloud’s Vertex AI — com Opus e Haiku em breve disponíveis em ambos.

Mais inteligente, mais rápido, mais seguro

Não acreditamos que a inteligência do modelo esteja perto de seus limites, e planejamos lançar atualizações frequentes para a família de modelos Claude 3 ao longo dos próximos meses.

Também estamos entusiasmados em lançar uma série de recursos para aprimorar as capacidades de nossos modelos, especialmente para casos de uso empresarial e implantações em grande escala.

Esses novos recursos incluirão Uso de Ferramentas (também conhecido como chamada de função), codificação interativa (também conhecida como REPL) e capacidades mais avançadas de agente.

Ao ultrapassarmos os limites das capacidades de IA, estamos igualmente comprometidos em garantir que nossos limites de segurança acompanhem esses avanços de desempenho.

Nossa hipótese é que estar na vanguarda do desenvolvimento de IA é a maneira mais eficaz de direcionar sua trajetória para resultados sociais positivos.

Para começar a construir com Claude, visite anthropic.com/claude.

____
março 05, 2024 (Terça-feira)
Fonte:https://www.anthropic.com/news/claude-3-family

Família de modelos Claude 3

Um novo padrão de inteligência

Velocidade

Capacidades de visão robustas

Menos recusas

Precisão melhorada

Verificação da Resposta

Contexto longo e recordação quase perfeita

Design responsável

Mais fácil de usar

Detalhes do modelo

Claude 3 Opus

Custo

Usos potenciais

Diferencial

Claude 3 Sonnet

Custo

Usos potenciais

Diferencial

Claude 3 Haiku

Custo

Usos potenciais

Diferencial

Disponibilidade dos modelos

Mais inteligente, mais rápido, mais seguro

Deixe um comentárioCancelar resposta