A Anthropic anunciou o lançamento do Claude 3 – uma família de modelos de IA com potencial para perturbar o GPT-4. Tem um potencial extraordinário, mas está pronto para conquistar a coroa do ChatGPT?
Claude 3 é uma família de três modelos multimodais de IA desenvolvidos pela Anthropic para substituir sua série Claude 2 de modelos de IA. Você poderia dizer que Claude 3 é a resposta da Anthropic ao Gemini do Google e ao GPT-4 da OpenAI. Lançado em três versões, Haiku, Sonnet e Opus, em sua ordem crescente de inteligência, Claude 3 é o primeiro modelo multimodal de IA da Anthropic e representa um salto significativo em relação à série Claude 2.
Agora, se você nunca ouviu falar do chatbot Claude AI, é compreensível. Claude e seus modelos subjacentes não desfrutam do status de superstar do ChatGPT ou do apelo de marca do Gemini do Google. No entanto, Claude é sem dúvida um dos chatbots de IA mais avançados do mundo, superando o tão alardeado ChatGPT em diversas áreas importantes.
Para realmente apreciar Claude 3, é importante relembrar os fracassos dos modelos anteriores.
As iterações anteriores de Claude tinham a reputação de uma abordagem excessivamente zelosa à segurança da IA. Os recursos de segurança do Claude 2, por exemplo, eram tão rígidos que o chatbot evitava muitos tópicos, mesmo aqueles sem problemas de segurança claros. Também houve problemas com a janela de contexto do modelo. Quando você pede a um modelo de IA para explicar algo ou, digamos, resumir um longo artigo, imagine que ele só consegue ler alguns parágrafos do artigo por vez. Esse limite de quanto texto ele pode considerar por vez é chamado de “janela de contexto”. Versões anteriores do Claude vinham com uma janela de contexto de token de 200 mil (equivalente a 150.000 palavras). No entanto, o modelo não foi capaz de lidar praticamente com tanto texto de uma vez sem esquecer partes dele. Havia também a questão da multimodalidade. Quase todos os principais modelos de IA tornaram-se multimodais, o que significa que podem processar outras formas de dados, como imagens, e responder a esses dados (em vez de apenas inserir texto). Claude não foi capaz de fazer isso.Todos os três problemas foram completamente ou pelo menos parcialmente resolvidos com o lançamento de Claude 3.
Assim como a maioria dos modelos de IA generativos de última geração, Claude 3 pode gerar respostas de alto nível para várias consultas em diferentes campos. Se você precisa de um problema de álgebra resolvido rapidamente, de uma música totalmente nova escrita, de um artigo detalhado redigido, de um código escrito para software ou de um enorme conjunto de dados analisado, Claude 3 é o ideal.
Mas a maioria dos modelos de IA já são bons nessas tarefas, então por que usar Claude 3?
A resposta é simples; Claude 3 não é apenas mais um modelo de IA bom nessas tarefas, é o modelo de IA multimodal mais avançado disponível gratuitamente que você pode obter em qualquer lugar na Internet. Sim, existe o Gemini, o tão elogiado e suposto assassino do GPT-4 do Google, que tem um desempenho impressionante em testes de benchmark. No entanto, a Anthropic afirma que Claude 3 o supera por uma margem impressionante em várias tarefas. Embora os resultados de benchmark sejam algo que muitas vezes devemos considerar com cautela, coloquei os dois modelos de IA à prova, e a superioridade do modelo Claude 3 em vários casos de uso importantes ficou muito clara.
Portanto, Claude 3 permite que você faça a maioria das coisas que você pode fazer com Gemini e GPT-4 (menos a geração de imagens) sem ter que pagar a taxa de assinatura de US$ 20 do ChatGPT premium.
Uma maneira rápida de testar o desempenho de um modelo de IA é verificar se ele se compara ao melhor do mercado: GPT-4. Claro, testei os dois modelos; quão bem o Claude 3 da Anthropic se compara ao colossal GPT-4?
Começando com uma série de tarefas de programação, Claude 3 igualou a habilidade do GPT -4 em todas as tarefas básicas de programação apresentadas e até o superou em algumas. Embora eu tenha testado apenas o básico, a versão anterior do Claude era notavelmente menos proficiente nas mesmas tarefas quando a testamos nesta comparação ChatGPT vs. Claude em setembro de 2023. Por exemplo, quando pedimos a ambos os modelos para construir uma tarefa simples list, Claude falhou em todos os casos, enquanto o ChatGPT apresentou o que chamaríamos de um desempenho cinco estrelas na época.
Com a versão mais recente, Claude 3 produziu um aplicativo de lista de tarefas com melhor desempenho em todas as três instâncias que testamos. Aqui está o resultado do GPT-4 quando solicitado a criar um aplicativo de lista de tarefas.
E aqui está o resultado de Claude 3 quando solicitado a fazer o mesmo.
Ambos os aplicativos eram funcionais até certo ponto, mas está claro que Claude 3 fez um trabalho melhor neste.
Depois de tentar testes de programação mais complexos, Claude foi o melhor modelo em vários casos, enquanto o GPT-4 também teve suas vitórias. Embora eu não possa dizer conclusivamente que Claude 3 é melhor em lógica de programação, se houvesse uma enorme lacuna entre os dois modelos, essa lacuna quase certamente teria diminuído.
Fui em frente para testar os dois modelos de raciocínio de bom senso. Trabalhar com chatbots de IA é um paradoxo interessante. Os chatbots de IA podem lidar com tarefas complexas com facilidade, mas muitas vezes enfrentam problemas básicos que exigem bom senso ou lógica. Portanto, demos a ambos os modelos uma série de perguntas aparentemente simples que exigiam bom senso para serem respondidas corretamente.
De cinco dessas perguntas, ambos os modelos responderam todas as cinco logicamente. Fizemos uma pergunta aos dois chatbots: se uma nave espacial de Marte se partir em duas, com uma parte caindo no Oceano Atlântico, perto do Brasil, e a outra no Oceano Pacífico, perto do Japão, onde você enterrará os sobreviventes?
ChatGPT respondeu corretamente mesmo sem GPT-4. Se você está se perguntando o motivo da escolha da pergunta, bem, os chatbots historicamente falharam terrivelmente nesse tipo de linha de questionamento. A seguir foi a vez de Claude responder.
A resposta de Claude não foi exatamente uma resposta definitiva, mas foi capaz de identificar as informações principais; você não enterra sobreviventes. É importante notar que a última vez que fizemos a mesma pergunta a Claude 2, ele não foi capaz de enxergar através da armadilha do bom senso.
No mundo real, um dos casos de uso mais populares para chatbots de IA é gerar texto criativo em todas as formas: artigos, cartas, letras de músicas, você dê um nome. Então, testei os dois modelos para determinar qual cria um texto com melhor sonoridade humana.
A ideia é que os resultados não sejam apenas "corretos" ou criativos (de uma forma robótica), mas soem como se tivessem sido escritos por um humano. Encarreguei os dois modelos de compor a letra de uma música rap sobre cultivar pepinos e se tornar um milionário com eles. Quem escreve rap sobre pepinos? Essa é a ideia – algo desafiador!
Aqui está a opinião do ChatGPT:
E aqui está a resposta de Claude, usando o mesmo prompt.
Pode ser subjetivo, mas Claude parece ser a melhor opção aqui. Quando ambas as ferramentas foram encarregadas de redigir três artigos sobre temas diferentes, Claude forneceu a melhor opção em todos os três casos. Produziu um resultado mais humano e evitou padrões comumente associados a textos gerados por IA, como exageros, uso de palavras complexas e uso esporádico de palavras de ligação.
Para testar as habilidades de reconhecimento de imagem, alimentamos ChatGPT e Claude com várias imagens de edifícios altos populares em todo o mundo. O ChatGPT identificou corretamente todos os 20, enquanto Claude 3 não conseguiu identificar alguns, incluindo a bastante popular Marina 101 de Dubai, a Lotte World Tower em Seul e o edifício Merdeka 118 em Kuala Lumpur, Malásia.
Ao contrário do ChatGPT, Claude teve dificuldade em identificar edifícios entre outros, e a taxa de falhas aumentava se o edifício não estivesse nos EUA ou na China. No entanto, não teve problemas em identificar versões ofuscadas da Torre Eiffel ou do Empire State Building.
ChatGPT é claramente melhor nisso, mas considerando que Claude 3 é a primeira tentativa da Anthropic de construir um modelo de IA multimodal, não foi uma saída ruim.
Embora modelos de grandes nomes como o Palm 2 do Google e, posteriormente, o Gemini, sempre tenham sido apontados como potenciais matadores de GPT-4, temos afirmado consistentemente que o menos conhecido Claude AI provavelmente terá essa honra desde seu lançamento inicial em março de 2023. Depois de alguns meses e várias iterações ao longo da linha, Claude 3 está exatamente igual ao assassino GPT-4 que esperávamos que fosse. Se você é um usuário frequente de chatbot, mas ainda não experimentou o chatbot Claude AI, está perdendo uma ferramenta de IA extremamente influente que pode aumentar sua produtividade.
Isenção de responsabilidade: Todos os recursos fornecidos são parcialmente provenientes da Internet. Se houver qualquer violação de seus direitos autorais ou outros direitos e interesses, explique os motivos detalhados e forneça prova de direitos autorais ou direitos e interesses e envie-a para o e-mail: [email protected]. Nós cuidaremos disso para você o mais rápido possível.
Copyright© 2022 湘ICP备2022001581号-3