Apresentando Mercury, o primeiro modelo de linguagem grande por difusão em escala comercial

Veja essa publicação da Inception, falando sobre os dLLMs.

Treinamos modelos de linguagem grandes por difusão que são até 10 vezes mais rápidos e baratos do que os LLMs atuais, expandindo a fronteira da inteligência e velocidade para modelos de linguagem.

Principais conclusões

Estamos anunciando a família Mercury de modelos de linguagem grandes por difusão (dLLMs), uma nova geração de LLMs que expande a fronteira da geração de texto rápida e de alta qualidade.
Mercury é até 10 vezes mais rápido do que os LLMs de fronteira otimizados para velocidade. Nossos modelos rodam a mais de 1000 tokens/seg em NVIDIA H100s, uma velocidade anteriormente possível apenas com chips personalizados.

O modelo de geração de código, Mercury Coder, está disponível para teste em um playground. Oferecemos aos clientes empresariais acesso a modelos de código e generalistas através de uma API e implantações locais.

Nossa Visão — LLMs de Próxima Geração Impulsionados por Difusão

Os modelos de linguagem grandes atuais são auto-regressivos, o que significa que eles geram texto da esquerda para a direita, um token de cada vez. A geração é inerentemente sequencial — um token não pode ser gerado até que todo o texto que o precede tenha sido gerado — e gerar cada token requer a avaliação de uma rede neural com bilhões de parâmetros.

Empresas de LLMs de fronteira estão apostando na computação em tempo de teste para aumentar as capacidades de raciocínio e correção de erros, mas gerar longos rastros de raciocínio tem como preço custos de inferência exorbitantes e latência inutilizável.

Uma mudança de paradigma é necessária para tornar as soluções de IA de alta qualidade verdadeiramente acessíveis.

Modelos de difusão proporcionam tal mudança de paradigma. Estes modelos operam com um processo de geração “grosseiro para fino”, onde a saída é refinada a partir de ruído puro ao longo de alguns passos de “remoção de ruído”.

Como os modelos de difusão não são restritos a considerar apenas a saída anterior, eles são melhores em raciocínio e em estruturar suas respostas. E como os modelos de difusão podem refinar continuamente suas saídas, eles podem corrigir erros e alucinações.

Por estas razões, a difusão impulsiona todas as soluções de IA mais proeminentes para geração de vídeo, imagem e áudio, incluindo Sora, Midjourney e Riffusion. No entanto, as aplicações da difusão a dados discretos, como texto e código, nunca foram bem-sucedidas. Até agora.

Mercury Coder — Inteligência de Fronteira a Mais de 1000 Tokens por Segundo

Mercury Coder expande a fronteira das capacidades de IA: é 5 a 10 vezes mais rápido do que a geração atual de LLMs, fornecendo respostas de alta qualidade a baixos custos.

Nosso trabalho se baseia em pesquisas inovadoras de nossos fundadores – que foram pioneiros nos primeiros modelos de difusão para imagens – e que co-inventaram técnicas essenciais de IA generativa, como Otimização Direta de Preferência, Flash Attention e Decision Transformers.

Um dLLM é um substituto direto para um LLM auto-regressivo típico, suportando todos os seus casos de uso, incluindo RAG, uso de ferramentas e fluxos de trabalho agentivos.

Quando solicitado com uma consulta, em vez de produzir a resposta um token de cada vez, a resposta é gerada de forma grosseira para fina. Melhorias são sugeridas por uma rede neural – no nosso caso, um modelo Transformer – que é treinada em grandes quantidades de dados para melhorar globalmente a qualidade da resposta, modificando vários tokens em paralelo.

Mercury Coder é um dLLM especificamente otimizado para geração de código. Quando avaliado em benchmarks de codificação padrão, Mercury Coder atinge excelente qualidade em inúmeros benchmarks, muitas vezes superando o desempenho de modelos auto-regressivos otimizados para velocidade como GPT-4o Mini e Claude 3.5 Haiku, sendo até 10 vezes mais rápido.

O que diferencia os dLLMs é a sua velocidade. Enquanto mesmo os modelos auto-regressivos otimizados para velocidade rodam no máximo a 200 tokens por segundo, podemos servir Mercury Coder em NVIDIA H100s comuns a velocidades de mais de 1000 tokens por segundo, um aumento de 5x.

Comparado com alguns modelos de fronteira, que podem rodar a menos de 50 tokens por segundo, oferecemos uma aceleração de mais de 20X.

A taxa de transferência alcançada por dLLMs era anteriormente alcançável apenas usando hardware especializado, como Groq, Cerebras e SambaNova. Nossas melhorias algorítmicas são ortogonais à aceleração de hardware e os ganhos de velocidade se somariam em chips mais rápidos.

Comparação de velocidade; Tokens de saída por segundo; Carga de trabalho de codificação

Também estamos entusiasmados em relatar que desenvolvedores preferem as conclusões de código do Mercury em comparação com os modelos de código existentes. Quando comparado no Copilot Arena, (https://lmarena.ai/?leaderboard), Mercury Coder Mini está empatado em segundo lugar, superando o desempenho de modelos otimizados para velocidade como GPT-4o Mini e Gemini-1.5-Flash e até mesmo de modelos maiores como GPT-4o.

Ao mesmo tempo, é o modelo mais rápido, cerca de 4 vezes mais rápido que o GPT-4o Mini. Convidamos você a explorar as capacidades de nossos modelos em primeira mão em nosso playground(https://chat.inceptionlabs.ai), hospedado em parceria com a Lambda Labs. Experimente a precisão do Mercury Coder na geração de código de alta qualidade em uma fração do tempo.

O que isso significa para as aplicações de IA

Nossos primeiros clientes, que incluem líderes de mercado em áreas como suporte ao cliente, geração de código e automação empresarial, estão substituindo com sucesso modelos base auto-regressivos padrão por nossos dLLMs como substitutos diretos. Isso se traduz em melhores experiências de usuário e custos reduzidos.

Em aplicações sensíveis à latência, nossos parceiros eram frequentemente limitados a usar modelos menores e menos capazes para atender aos requisitos rigorosos de latência. Graças ao desempenho superior dos dLLMs, esses parceiros agora podem usar modelos maiores e mais capazes, mantendo seus requisitos originais de custo e velocidade.

Oferecemos acesso aos nossos modelos através de uma API e via implantações locais. Nossos modelos são totalmente compatíveis com hardware, conjuntos de dados e pipelines de ajuste fino supervisionado (SFT) e alinhamento (RLHF) existentes. Suporte para ajuste fino está disponível para ambas as opções de implantação.

O que vem a seguir?

Mercury Coder é o primeiro de uma série de próximos dLLMs. Um modelo projetado para aplicações de chat está em beta fechado.

Modelos de linguagem de difusão desbloquearão um novo conjunto de capacidades para LLMs, incluindo:

Agentes aprimorados — A velocidade e eficiência dos dLLMs os tornam ideais para aplicações agentivas que requerem planejamento extensivo e geração longa.
Raciocínio avançado — dLLMs podem alavancar a correção de erros para corrigir alucinações e melhorar as respostas, pensando ainda em segundos, ao contrário dos atuais modelos de raciocínio auto-regressivos que levam minutos.
Geração controlável — dLLMs podem editar sua saída e gerar tokens em qualquer ordem, permitindo que os usuários preencham texto, alinhem as saídas com objetivos como segurança ou produzam saídas que estejam em conformidade confiável com formatos especificados pelo usuário.
Aplicações de borda – Dada a sua eficiência, os dLLMs se destacam em ambientes com recursos limitados, como implantações de borda em telefones e laptops.

Mercury Coder está disponível para testes em nosso playground.
VISITAR PLAYGROUND: https://chat.inceptionlabs.ai/

Referências:

Comece por aqui: https://share.hsforms.com/1GYg8v9p2SjGC-tTtTD23pAc5yjb
PLAYGROUND: https://chat.inceptionlabs.ai/

https://x.com/inceptionAILabs
https://www.linkedin.com/company/inception-labs-a
https://bsky.app/profile/inceptionlabs.bsky.social

Para obter acesso antecipado à API e entre em contato através do email sales@inceptionlabs.ai para discutir como os dLLMs podem transformar suas aplicações AI.

Para ter acesso à API, inscreva-se aqui: https://share.hsforms.com/10qZzL8XjSbC3y8YmblLMeAc5yjb

Pesquisa, Edição, formatação e finalização:
Werney A. Lima, sábado, 1 de março de 2025 – 16:11 (sábado)