Anthropic´s Computer Use Model

A interação entre inteligência artificial (IA) e computadores atingiu um novo patamar com o Claude 3.5 Sonnet, desenvolvido pela Anthropic.

Este modelo é capaz de operar computadores de forma semelhante a humanos, movendo o cursor, clicando em locais específicos e inserindo dados via teclado virtual.

Isso representa um salto significativo nas capacidades da IA, abrindo novas portas para sua aplicação em diversas áreas.

As Novas Capacidades do Claude 3.5

O Claude 3.5 Sonnet foi treinado para realizar tarefas computacionais básicas e complexas, de modo que pode utilizar qualquer software existente. Esse avanço elimina a necessidade de ferramentas personalizadas para cada função específica. Ao dominar o uso de softwares como editores de texto e calculadoras, o Claude demonstra uma capacidade impressionante de generalização, podendo aplicar os mesmos princípios a outros programas mais complexos.

Treinamento e Capacidade de Generalização

O desenvolvimento do Claude 3.5 Sonnet baseou-se em trabalhos anteriores focados na multimodalidade e no uso de ferramentas. Um dos grandes desafios foi ensinar o modelo a contar pixels com precisão para garantir comandos precisos do mouse, o que foi crucial para a execução de tarefas dentro de softwares variados.

Além de suas habilidades em manipulação de mouse e teclado virtual, o Claude pode interpretar capturas de tela, o que lhe permite entender o contexto do que está acontecendo na tela e responder de maneira adequada. Essa habilidade de visão computacional combinada com o raciocínio sobre as operações necessárias amplia ainda mais suas capacidades.

Desempenho e Avaliação do Claude

No teste OSWorld, que avalia a capacidade de modelos de IA de usarem computadores, o Claude 3.5 Sonnet alcançou 14,9% de acertos, superando outros modelos da mesma categoria. Contudo, ainda há um longo caminho a percorrer para atingir o nível de um usuário humano médio, que obtém entre 70-75% de acertos.

Mesmo assim, o modelo já está sendo considerado uma revolução na interação IA-computador, com o potencial de facilitar significativamente tarefas automatizadas em diversas indústrias.

Desafios e Limitações

O Claude 3.5 ainda apresenta algumas limitações importantes. A operação pode ser lenta e propensa a erros, especialmente em interações mais complexas, como arrastar objetos e aplicar zoom. Além disso, o método de visualização utilizado pelo Claude, chamado de “flipbook”, é baseado na captura e análise de imagens estáticas da tela, o que pode fazer com que o modelo perca ações ou notificações de curta duração.

Outro desafio enfrentado pela equipe da Anthropic foi a necessidade de corrigir erros durante as operações do Claude. Quando o modelo falha em uma tarefa, ele tenta corrigir automaticamente suas ações, repetindo o comando até que a operação seja concluída com sucesso.

Medidas de Segurança e Privacidade

A Anthropic tem tomado medidas rigorosas para garantir a segurança no uso computacional do Claude 3.5. Como a IA pode interagir diretamente com qualquer software, há preocupações legítimas sobre ataques cibernéticos, como a “prompt injection”, em que instruções maliciosas poderiam desviar a IA de sua intenção original.

Para mitigar esses riscos, a Anthropic desenvolveu classificadores que identificam e previnem abusos, especialmente em contextos sensíveis, como eleições. Além disso, o compromisso com a privacidade dos dados dos usuários é forte, garantindo que informações fornecidas durante o uso do Claude, como capturas de tela, não sejam utilizadas para treinar o modelo.

O Futuro do Uso de Computadores pela IA

O Claude 3.5 Sonnet está no caminho certo para se integrar em ambientes computacionais do cotidiano, permitindo que desenvolvedores utilizem suas capacidades em qualquer software. Embora o modelo ainda esteja em desenvolvimento, com limitações claras de velocidade e confiabilidade, a expectativa é que ele evolua rapidamente, tornando-se uma ferramenta essencial para profissionais e empresas.

A Anthropic está incentivando a comunidade de desenvolvedores a participar do beta público do Claude, com o objetivo de coletar feedback e aprimorar suas capacidades. O futuro do uso de computadores pela IA parece promissor, e o Claude 3.5 Sonnet está liderando esse avanço, preparando o terreno para inovações ainda mais impressionantes.

Pesquisa, Edição, formatação e finalização:
Werney Lima, quarta-feira, 23 de outubro de 2024 – 08:22 (quarta-feira)
Fonte: https://www.anthropic.com/news/developing-computer-use