Anthropic ha anunciado el lanzamiento de Claude 3, una familia de modelos de IA con el potencial de alterar GPT-4. Tiene un potencial excepcional, pero ¿está listo para quitarle la corona a ChatGPT?
Claude 3 es una familia de tres modelos de IA multimodal desarrollados por Anthropic para reemplazar su serie Claude 2 de modelos de IA. Se podría decir que Claude 3 es la respuesta de Anthropic al Gemini de Google y al GPT-4 de OpenAI. Lanzado en tres versiones, Haiku, Sonnet y Opus, en su orden creciente de inteligencia, Claude 3 es el primer modelo de IA multimodal de Anthropic y representa un salto significativo con respecto a la serie Claude 2.
Ahora bien, si nunca has oído hablar del chatbot Claude AI, es comprensible. Claude y sus modelos subyacentes no disfrutan del estatus de superestrella de ChatGPT ni del atractivo de marca de Gemini de Google. Sin embargo, Claude es sin duda uno de los chatbots de IA más avanzados del mundo, superando al tan cacareado ChatGPT en varias áreas clave.
Para apreciar realmente el Claude 3, es importante recordar los fallos de los modelos anteriores.
Las versiones anteriores de Claude tenían fama de tener un enfoque demasiado entusiasta en la seguridad de la IA. Las características de seguridad de Claude 2, por ejemplo, eran tan estrictas que el chatbot evitaba demasiados temas, incluso aquellos sin problemas de seguridad claros. También hubo problemas con la ventana de contexto del modelo. Cuando le pides a un modelo de IA que explique algo o, digamos, que resuma un artículo extenso, imagina que solo puede leer unos pocos párrafos del artículo a la vez. Este límite de la cantidad de texto que puede considerar a la vez se denomina "ventana de contexto". Las versiones anteriores de Claude venían con una ventana de contexto de 200.000 tokens (equivalente a 150.000 palabras). Sin embargo, el modelo no fue capaz de manejar prácticamente tanto texto de una sola vez sin olvidar fragmentos del mismo. También estaba la cuestión de la multimodalidad. Casi todos los principales modelos de IA se han vuelto multimodales, lo que significa que pueden procesar otras formas de datos, como imágenes, y responder a esos datos (en lugar de solo ingresar texto). Claude no pudo hacerlo.Los tres problemas se han solucionado completa o al menos parcialmente con el lanzamiento de Claude 3.
Al igual que la mayoría de los modelos de IA generativa de vanguardia que existen, Claude 3 puede generar respuestas de primer nivel para diversas consultas en diferentes campos. Ya sea que necesite resolver un problema de álgebra rápidamente, escribir una canción nueva, redactar un artículo en profundidad, escribir un código para software o analizar un conjunto de datos masivo, Claude 3 es ideal.
Pero la mayoría de los modelos de IA ya son buenos en estas tareas, entonces, ¿por qué utilizar Claude 3?
La respuesta es simple; Claude 3 no es sólo otro modelo de IA que es bueno en estas tareas, es el modelo de IA multimodal disponible gratuitamente más avanzado que se puede encontrar en Internet. Sí, existe Gemini, el supuesto asesino de GPT-4 de Google que se desempeña de manera impresionante en las pruebas comparativas. Sin embargo, Anthropic afirma que Claude 3 lo supera por un margen impresionante en varias tareas. Si bien los resultados de las pruebas comparativas son algo que a menudo debemos tomar con cautela, puse a prueba ambos modelos de IA y la superioridad del modelo Claude 3 en varios casos de uso importantes fue muy clara.
Entonces, Claude 3 te permite hacer la mayoría de las cosas que puedes hacer con Gemini y GPT-4 (menos la generación de imágenes) sin tener que pagar la tarifa de suscripción de $20 por ChatGPT premium.
Una forma rápida de probar el rendimiento de un modelo de IA es comprobar qué tan bien se compara con el mejor del mercado: GPT-4. Por supuesto, puse a prueba ambos modelos; ¿Qué tan bien se compara el Claude 3 de Anthropic con el colosal GPT-4?
Comenzando con una serie de tareas de programación, Claude 3 igualó la capacidad de GPT -4 en todas las tareas de programación básicas presentadas e incluso lo superó en algunas. Si bien solo probé lo básico, la versión anterior de Claude era notablemente menos competente en las mismas tareas cuando la probamos en esta comparación entre ChatGPT y Claude en septiembre de 2023. Por ejemplo, cuando les pedimos a ambos modelos que crearan una tarea sencilla lista de aplicaciones, Claude falló en todos los casos, mientras que ChatGPT tuvo lo que llamaríamos un desempeño de cinco estrellas en ese momento.
Con la última versión, Claude 3 produjo una aplicación de lista de tareas con mejor rendimiento en los tres casos que probamos. Aquí está el resultado de GPT-4 cuando se le solicita que cree una aplicación de lista de tareas pendientes.
Y aquí está el resultado de Claude 3 cuando se le pidió que hiciera lo mismo.
Ambas aplicaciones eran funcionales hasta cierto punto, pero está claro que Claude 3 hizo un mejor trabajo en esta.
Después de probar pruebas de programación más complejas, Claude fue el mejor modelo en varios casos, mientras que GPT-4 también obtuvo sus victorias. Si bien no puedo decir de manera concluyente que Claude 3 sea mejor en programación lógica, si hubiera una gran brecha entre los dos modelos, es casi seguro que esa brecha se habría reducido.
Seguí adelante para probar ambos modelos con razonamiento de sentido común. Trabajar con chatbots de IA es una paradoja interesante. Los chatbots de IA pueden manejar tareas complejas con facilidad, pero a menudo tienen problemas básicos que requieren sentido común o lógica. Entonces, les dimos a ambos modelos una serie de preguntas aparentemente sencillas que requerían sentido común para responder correctamente.
De cinco de estas preguntas, ambos modelos respondieron las cinco de forma lógica. Les hicimos a ambos chatbots una de esas preguntas: si una nave espacial de Marte se rompe en dos, una parte se estrella en el Océano Atlántico cerca de Brasil y la otra en el Océano Pacífico cerca de Japón, ¿dónde entierras a los sobrevivientes?
ChatGPT respondió correctamente incluso sin GPT-4. Si se pregunta el motivo de la elección de la pregunta, bueno, históricamente los chatbots han fracasado lamentablemente en este tipo de línea de preguntas. El siguiente fue el turno de Claude de responder.
La respuesta de Claude no fue exactamente una respuesta definitiva, pero fue capaz de identificar la información clave; no se entierra a los supervivientes. Es importante tener en cuenta que la última vez que le hicimos la misma pregunta a Claude 2, no pudo ver a través de la trampa del sentido común.
En el mundo real, uno de los casos de uso más populares de los chatbots con IA es generar texto creativo en todas sus formas: artículos, cartas, letras de canciones, etc. nómbralo. Entonces, probé ambos modelos para determinar cuál crea un texto con mejor sonido humano.
La idea es que los resultados no sólo deben ser "correctos" o creativos (de una manera robótica), sino que suenan como si hubieran sido escritos por un humano. Encargué a ambas modelos que escribieran la letra de una canción de rap sobre cómo cultivar pepinos y convertirse en millonario con ellos. ¿Quién escribe canciones de rap sobre pepinos? Esa es la idea: ¡algo desafiante!
Aquí está la opinión de ChatGPT:
Y aquí está la respuesta de Claude, usando el mismo mensaje.
Puede que sea subjetivo, pero Claude parece ser la mejor opción aquí. Cuando a ambas herramientas se les encomendó la tarea de redactar tres artículos sobre diferentes temas, Claude proporcionó la mejor opción en los tres casos. Produjo un resultado más parecido al humano y evitó patrones comúnmente asociados con los textos generados por IA, como exageraciones, el uso de palabras complejas y el uso esporádico de palabras de enlace.
Para probar las capacidades de reconocimiento de imágenes, proporcionamos a ChatGPT y Claude varias imágenes de edificios altos populares en todo el mundo. ChatGPT identificó correctamente los 20, mientras que Claude 3 no pudo identificar algunos, incluido el bastante popular Marina 101 de Dubai, la Lotte World Tower en Seúl y el edificio Merdeka 118 en Kuala Lumpur, Malasia.
A diferencia de ChatGPT, Claude tuvo problemas para identificar edificios, entre otros, y la tasa de fallas aumentó si el edificio no estaba en EE. UU. o China. Sin embargo, no tuvo problemas para identificar versiones ofuscadas de la Torre Eiffel o el Empire State Building.
ChatGPT es claramente mejor en esto, pero considerando que Claude 3 es el primer intento de Anthropic de construir un modelo de IA multimodal, no fue una mala salida.
Aunque modelos de renombre como Palm 2 de Google y, posteriormente, Gemini, siempre han sido promocionados como potenciales asesinos de GPT-4, hemos sostenido constantemente que el Claude AI, menos conocido, probablemente tendrá ese honor desde entonces. su lanzamiento inicial en marzo de 2023. Después de unos meses y varias iteraciones, Claude 3 se ve exactamente como el asesino GPT-4 que habíamos anticipado. Si es un gran usuario de chatbot pero no ha probado el chatbot Claude AI, se está perdiendo una herramienta de inteligencia artificial enormemente influyente que puede potenciar su productividad.
Descargo de responsabilidad: Todos los recursos proporcionados provienen en parte de Internet. Si existe alguna infracción de sus derechos de autor u otros derechos e intereses, explique los motivos detallados y proporcione pruebas de los derechos de autor o derechos e intereses y luego envíelos al correo electrónico: [email protected]. Lo manejaremos por usted lo antes posible.
Copyright© 2022 湘ICP备2022001581号-3