Gemini, o maior e mais capaz modelo de IA do Google

Nesse artigo, vamos explorar o Gemini Ultra: O Novo Competidor do GPT-4.

“Para refletir a tecnologia avançada em sua essência, o Bard agora será chamado simplesmente de Gemini“, escreveu Sundar Pichai, CEO do Google, no blog da Google. “O Gemini está evoluindo para ser mais do que apenas uma família de modelos. Ele suporta todo um ecossistema“

O mundo da inteligência artificial acaba de receber uma atualização significativa com o lançamento do Gemini Ultra pela Google. Este novo modelo de linguagem avançado promete rivalizar com o renomado GPT-4, trazendo consigo uma série de melhorias.

O Que é o Gemini Ultra?

O Gemini Ultra é o mais recente lançamento da Google, projetado para oferecer avanços significativos na geração de linguagem natural. Ele surge como uma alternativa robusta ao GPT-4, com uma série de recursos aprimorados e uma resposta mais rápida e precisa.

Acesso e Planos de Assinatura

Para acessar o Gemini Ultra, a Google oferece planos de assinatura mensal através do Google One. Esses planos proporcionam acesso exclusivo ao Gemini Ultra, juntamente com outros benefícios, tornando-o uma opção atraente para aqueles que buscam explorar o potencial da inteligência artificial avançada.

A assinatura mensal do Plano Gemini Advanced custa R$ 96,99, em 09/02/2024. O Google está oferecendo 2 meses de assinatura sem custo, entretanto, o Gemini Advanced Ultra 1.0 só está disponível em inglês, conforme indica a imagem abaixo:

Para acessar a página relativa aos planos do Gemini, acesse o link abaixo: https://gemini.google.com/advanced

Tamanhos & Flexibilidade

Gemini também é o modelo mais flexível. Capaz de rodar de forma eficiente em tudo, desde data centers até dispositivos móveis. Suas capacidades de ponta irão melhorar significativamente a maneira como os desenvolvedores e clientes empresariais constroem e escalonam com IA.

O Gemini 1.0, a primeira versão, tem agora três tamanhos diferentes:

Gemini Ultra — o maior e mais capaz modelo para tarefas altamente complexas.
Gemini Pro — o melhor modelo para escalonamento em uma ampla variedade de tarefas.
Gemini Nano — o modelo mais eficiente para tarefas em dispositivos.

Desempenho e Qualidade de Resposta

O que que a Google declarou sobre o desempenho dos modelos Gemini:

Nós temos testado rigorosamente nossos modelos Gemini e avaliado seu desempenho em uma ampla variedade de tarefas. Desde compreensão de imagens naturais, áudio e vídeo até raciocínio matemático, o desempenho do Gemini Ultra supera os resultados atuais de ponta em 30 dos 32 benchmarks acadêmicos amplamente utilizados em pesquisa e desenvolvimento de modelos de linguagem grandes (LLM).

Com uma pontuação de 90,0%, o Gemini Ultra é o primeiro modelo a superar especialistas humanos em MMLU (compreensão de linguagem multitarefa massiva), que utiliza uma combinação de 57 disciplinas, como matemática, física, história, direito, medicina e ética, para testar tanto o conhecimento mundial quanto as habilidades de resolução de problemas.

Nossa nova abordagem de benchmark para MMLU permite que o Gemini use suas capacidades de raciocínio para pensar mais cuidadosamente antes de responder perguntas difíceis, resultando em melhorias significativas em relação ao uso apenas de sua primeira impressão.

Gemini Ultra também alcança uma pontuação de ponta de 59,4% no novo benchmark MMMU, que consiste em tarefas multimodais abrangendo diferentes domínios que exigem raciocínio deliberado.

Com os benchmarks de imagem que testamos, o Gemini Ultra superou os modelos anteriores de ponta, sem assistência de sistemas de reconhecimento óptico de caracteres (OCR) que extraem texto de imagens para processamento adicional. Esses benchmarks destacam a multimodalidade nativa do Gemini e indicam sinais iniciais das habilidades de raciocínio mais complexas do Gemini.

Veja mais detalhes no relatório técnico do Gemini.

Capacidades da próxima geração

Até agora, a abordagem padrão para criar modelos multimodais envolvia treinar componentes separados para diferentes modalidades e depois uni-los para imitar aproximadamente parte dessa funcionalidade. Esses modelos às vezes podem ser bons em realizar certas tarefas, como descrever imagens, mas têm dificuldades com raciocínio mais conceitual e complexo.

Projetamos o Gemini para ser nativamente multimodal, pré-treinado desde o início em diferentes modalidades. Em seguida, ajustamos ainda mais com dados multimodais adicionais para refinar sua eficácia. Isso ajuda o Gemini a entender e raciocinar de forma integrada sobre todos os tipos de entradas desde o início, muito melhor do que os modelos multimodais existentes — e suas capacidades são de ponta em quase todos os domínios.

Saiba mais sobre as capacidades do Gemini e veja como ele funciona.

Raciocínio sofisticado

As capacidades de raciocínio multimodal sofisticado do Gemini 1.0 podem ajudar a dar sentido a informações complexas escritas e visuais. Isso o torna habilidoso para descobrir conhecimento que pode ser difícil de discernir em meio a grandes volumes de dados.

Sua notável capacidade de extrair insights de centenas de milhares de documentos por meio de leitura, filtragem e compreensão de informações ajudará a fornecer novas descobertas em velocidades digitais em muitos campos, da ciência à finança.

Compreensão de texto, imagens, áudio e vídeo.

O Gemini 1.0 foi treinado para reconhecer e compreender texto, imagens, áudio e vídeo ao mesmo tempo, o que o ajuda a entender melhor informações sutis e responder perguntas relacionadas a tópicos complicados. Isso o torna especialmente hábil em explicar raciocínios em assuntos complexos como matemática e física.

Programação Avançada

Nossa primeira versão do Gemini pode entender, explicar e gerar código de alta qualidade nas linguagens de programação mais populares do mundo, como Python, Java, C++ e Go. Sua capacidade de trabalhar entre linguagens e raciocinar sobre informações complexas o torna um dos principais modelos fundamentais para codificação no mundo.

O Gemini Ultra se destaca em vários benchmarks de codificação, incluindo o HumanEval, um importante padrão da indústria para avaliar o desempenho em tarefas de codificação, e o Natural2Code, nosso conjunto de dados mantido internamente, que usa fontes geradas pelo autor em vez de informações da web.

O Gemini também pode ser usado como motor para sistemas de codificação mais avançados. Dois anos atrás, apresentamos o AlphaCode, o primeiro sistema de geração de código de IA a alcançar um nível competitivo de desempenho em competições de programação.

Usando uma versão especializada do Gemini, criamos um sistema de geração de código mais avançado, o AlphaCode 2, que se destaca na resolução de problemas de programação competitiva que vão além da codificação para envolver matemática complexa e ciência da computação teórica.

Quando avaliado na mesma plataforma que o AlphaCode original, o AlphaCode 2 mostra melhorias massivas, resolvendo quase o dobro de problemas, e estimamos que ele tem um desempenho melhor do que 85% dos participantes da competição — um aumento de quase 50% sobre o AlphaCode. Quando os programadores colaboram com o AlphaCode 2 definindo certas propriedades para as amostras de código seguirem, ele funciona ainda melhor.

Veja mais detalhes no relatório técnico do AlphaCode 2.

Mais confiável, escalável e eficiente

Treinamos o Gemini 1.0 em escala em nossa infraestrutura otimizada para IA usando as Unidades de Processamento Tensorial (TPUs) v4 e v5e projetadas internamente pelo Google. E o projetamos para ser nosso modelo mais confiável e escalável para treinar, e o mais eficiente para servir.

Nas TPUs, o Gemini roda significativamente mais rápido do que modelos anteriores, menores e menos capazes. Esses aceleradores de IA projetados sob medida têm sido o cerne dos produtos alimentados por IA do Google que atendem bilhões de usuários, como Pesquisa, YouTube, Gmail, Google Maps, Google Play e Android. Eles também possibilitaram que empresas ao redor do mundo treinassem modelos de IA em grande escala de forma economicamente eficiente.

Hoje, estamos anunciando o sistema TPU mais poderoso, eficiente e escalável até o momento, Cloud TPU v5p, projetado para treinar modelos de IA de ponta. Esta TPU de próxima geração acelerará o desenvolvimento do Gemini e ajudará os desenvolvedores e clientes empresariais a treinar modelos de IA generativos em grande escala mais rapidamente, permitindo que novos produtos e capacidades cheguem aos clientes mais cedo.

Um corredor na **Cloud TPU v5p AI accelerator** supercomputers no Google data center.

Construído com responsabilidade e segurança

No Google, o desenvolvimento do Gemini é conduzido com um compromisso firme com a segurança e a responsabilidade. Medidas adicionais foram implementadas para lidar com os desafios específicos enfrentados por modelos multimodais como o Gemini.

Amplas avaliações de segurança, incluindo testes de viés e toxicidade, são realizadas, e especialistas externos são consultados para identificar possíveis falhas. Durante o treinamento, nós utilizamos benchmarks de segurança e implementamos classificadores dedicados para lidar com conteúdo sensível.

A abordagem responsável é fortalecida por meio de colaborações com a comunidade, com o objetivo de estabelecer melhores práticas e benchmarks de segurança. O compromisso é garantir que o Gemini seja seguro, inclusivo e responsável em todas as áreas.

Disponibilizando o Gemini para o mundo.

O Gemini 1.0 agora está sendo lançado em uma variedade de produtos e plataformas:

Gemini Pro em vários produtos da família Google

O Gemini Pro está sendo integrado aos produtos do Google, alcançando bilhões de pessoas.

A partir de hoje, o Bard utilizará uma versão refinada do Gemini Pro para raciocínio avançado, planejamento, compreensão e mais. Esta é a maior atualização do Bard desde o seu lançamento.

O Gemini também está sendo implementado no Pixel. O Pixel 8 Pro é o primeiro smartphone projetado para executar o Gemini Nano, que está alimentando novos recursos como Resumir no aplicativo Recorder e sendo lançado no Smart Reply no Gboard, começando com o WhatsApp, Line e KakaoTalk, com mais aplicativos de mensagens chegando no próximo ano.

Nos próximos meses, o Gemini estará disponível em mais produtos e serviços como Search, Ads, Chrome e Duet AI.

Já estamos experimentando o Gemini no Search, onde está tornando a nossa Experiência Generativa de Pesquisa (SGE) mais rápida para os usuários, com uma redução de 40% na latência em inglês nos Estados Unidos, juntamente com melhorias na qualidade.

Construindo com o Gemini

A partir de 13 de dezembro, desenvolvedores e clientes corporativos podem acessar o Gemini Pro por meio da API Gemini no Google AI Studio ou Google Cloud Vertex AI.

O Google AI Studio é uma ferramenta gratuita baseada na web para prototipar e lançar aplicativos rapidamente com uma chave de API. Quando for necessário uma plataforma de IA totalmente gerenciada, o Vertex AI permite a personalização do Gemini com controle total de dados e benefícios adicionais das características de segurança empresarial, privacidade e governança de dados e conformidade do Google Cloud.

Os desenvolvedores Android também poderão construir com o Gemini Nano, nosso modelo mais eficiente para tarefas em dispositivos, por meio do AICore, uma nova capacidade do sistema disponível no Android 14, a partir dos dispositivos Pixel 8 Pro.

Gemini Ultra está chegando!

O Gemini Ultra está passando por extensas verificações de confiança e segurança, e refinamento adicional por meio de ajustes finos e aprendizado por reforço a partir do feedback humano (RLHF) antes de ser amplamente disponibilizado.

Como parte desse processo, o Gemini Ultra será oferecido a clientes, desenvolvedores, parceiros e especialistas em segurança e responsabilidade selecionados para experimentação antecipada e feedback antes de ser lançado para desenvolvedores e clientes corporativos no início do próximo ano.

A era Gemini: possibilitando um futuro de inovação.

O lançamento do Gemini é um marco significativo no desenvolvimento da IA, sinalizando o início de uma nova era no Google, caracterizada pela rápida inovação e avanço responsável das capacidades dos modelos.

Esforços contínuos estão em andamento para aprimorar as capacidades do Gemini para futuras versões, incluindo melhorias em planejamento, memória e processamento de um contexto mais amplo para melhores respostas.

O Google está entusiasmado com o potencial da IA para capacitar de forma responsável um futuro de inovação, aprimorando a criatividade, expandindo o conhecimento, avançando a ciência e revolucionando os padrões globais de vida e trabalho.

_____

Algumas fontes de informações interessantes:

Blog Post completo do Google sobre o Gemini:
https://blog.google/technology/ai/google-gemini-ai/#sundar-note
Mais sobre Gemini:
https://blog.google/technology/ai/gemini-collection/
The next chapter of our Gemini era:
https://blog.google/technology/ai/google-gemini-update-sundar-pichai-2024/