Anthropic hat die Veröffentlichung von Claude 3 angekündigt – einer Familie von KI-Modellen mit dem Potenzial, GPT-4 zu verärgern. Es hat herausragendes Potenzial, aber ist es bereit, die Krone von ChatGPT zu erobern?
Claude 3 ist eine Familie von drei multimodalen KI-Modellen, die von Anthropic als Ersatz für die KI-Modellreihe Claude 2 entwickelt wurden. Man könnte sagen, Claude 3 ist Anthropics Antwort auf Googles Gemini und OpenAIs GPT-4. Claude 3 wird in den drei Versionen Haiku, Sonnet und Opus in aufsteigender Reihenfolge der Intelligenz veröffentlicht und ist Anthropics erstes multimodales KI-Modell und stellt einen bedeutenden Sprung gegenüber der Claude 2-Serie dar.
Wenn Sie noch nie vom Claude AI-Chatbot gehört haben, ist das verständlich. Claude und die ihm zugrunde liegenden Modelle genießen weder den Superstar-Status von ChatGPT noch die Markenattraktivität von Googles Gemini. Allerdings ist Claude zweifellos einer der fortschrittlichsten KI-Chatbots der Welt und übertrifft den viel gepriesenen ChatGPT in mehreren Schlüsselbereichen.
Um Claude 3 wirklich zu schätzen, ist es wichtig, auf die Misserfolge der Vorgängermodelle zurückzublicken.
Frühere Versionen von Claude hatten den Ruf, übereifrige Herangehensweise an die KI-Sicherheit zu haben. Die Sicherheitsfunktionen von Claude 2 waren beispielsweise so streng, dass der Chatbot zu viele Themen vermied, selbst solche ohne klare Sicherheitsprobleme. Es gab auch Probleme mit dem Kontextfenster des Modells. Wenn Sie ein KI-Modell bitten, etwas zu erklären oder beispielsweise einen langen Artikel zusammenzufassen, stellen Sie sich vor, dass es jeweils nur einige Absätze des Artikels lesen kann. Diese Grenze, wie viel Text gleichzeitig berücksichtigt werden kann, wird als „Kontextfenster“ bezeichnet. Frühere Versionen von Claude verfügten über ein Kontextfenster mit 200.000 Token (entspricht 150.000 Wörtern). Allerdings war das Modell praktisch nicht in der Lage, so viel Text am Stück zu verarbeiten, ohne Teile davon zu vergessen. Es gab auch das Problem der Multimodalität. Fast jedes große KI-Modell ist multimodal geworden, was bedeutet, dass es auch andere Datenformen wie Bilder verarbeiten und auf diese Daten reagieren kann (und nicht nur auf Texteingaben). Claude war dazu nicht in der Lage.Alle drei Probleme wurden mit der Veröffentlichung von Claude 3 nun vollständig oder zumindest teilweise behoben.
Genau wie die meisten hochmodernen generativen KI-Modelle auf dem Markt kann Claude 3 erstklassige Antworten für verschiedene Abfragen in verschiedenen Bereichen generieren. Egal, ob Sie eine schnelle Algebra-Aufgabe lösen, ein brandneues Lied schreiben, einen ausführlichen Artikel entwerfen, Code für Software schreiben oder einen riesigen Datensatz analysieren müssen, Claude 3 ist genau das Richtige für Sie.
Aber die meisten KI-Modelle beherrschen diese Aufgaben bereits gut, warum also Claude 3 verwenden?
Die Antwort ist einfach; Claude 3 ist nicht nur ein weiteres KI-Modell, das diese Aufgaben gut beherrscht, es ist das fortschrittlichste frei verfügbare multimodale KI-Modell, das Sie überall im Internet finden können. Ja, es gibt Gemini, den vielgepriesenen vermeintlichen GPT-4-Killer von Google, der in Benchmark-Tests beeindruckend abschneidet. Anthropic behauptet jedoch, dass Claude 3 es bei mehreren Aufgaben beeindruckend übertrifft. Obwohl wir Benchmark-Ergebnisse oft mit Vorsicht genießen sollten, habe ich beide KI-Modelle auf die Probe gestellt und die Überlegenheit des Claude-3-Modells in mehreren wichtigen Anwendungsfällen war sehr deutlich.
Mit Claude 3 können Sie also die meisten Dinge tun, die Sie mit Gemini und GPT-4 tun können (abzüglich der Bildgenerierung), ohne die 20-Dollar-Abonnementgebühr für ChatGPT Premium zahlen zu müssen.
Eine schnelle Möglichkeit, die Leistung eines KI-Modells zu testen, besteht darin, zu prüfen, wie gut es im Vergleich zu den Besten auf dem Markt abschneidet: GPT-4. Natürlich habe ich beide Modelle auf die Probe gestellt; Wie gut schlägt sich Claude 3 von Anthropic gegen den kolossalen GPT-4?
Beginnend mit einer Reihe von Programmieraufgaben erreichte Claude 3 bei allen vorgestellten grundlegenden Programmieraufgaben die Fähigkeiten von GPT -4 und übertraf sie in einigen sogar. Während ich nur die Grundlagen getestet habe, war die vorherige Version von Claude bei den gleichen Aufgaben deutlich weniger kompetent, als wir sie im September 2023 in diesem ChatGPT vs. Claude-Vergleich testeten. Zum Beispiel, als wir beide Modelle baten, eine einfache Aufgabe zu erstellen Mit der Listen-App scheiterte Claude in allen Fällen, während ChatGPT eine Leistung erbrachte, die wir damals als Fünf-Sterne-Leistung bezeichnen würden.
Mit der neuesten Version hat Claude 3 in allen drei von uns getesteten Fällen eine leistungsstärkere To-Do-Listen-App erstellt. Hier ist das Ergebnis von GPT-4, wenn Sie aufgefordert werden, eine To-Do-Listen-App zu erstellen.
Und hier ist das Ergebnis von Claude 3, als er gebeten wurde, dasselbe zu tun.
Beide Apps waren bis zu einem gewissen Grad funktionsfähig, aber es ist klar, dass Claude 3 hier einen besseren Job gemacht hat.
Nach Versuchen mit komplexeren Programmiertests war Claude in mehreren Fällen das bessere Modell, während GPT-4 auch seine Vorteile hatte. Ich kann zwar nicht schlüssig sagen, dass Claude 3 besser in der Programmierung von Logik ist, aber wenn zwischen den beiden Modellen eine große Lücke bestünde, wäre diese Lücke mit ziemlicher Sicherheit kleiner geworden.
Ich habe beide Modelle auf Common Sense Reasoning getestet. Die Arbeit mit KI-Chatbots ist ein interessantes Paradoxon. KI-Chatbots können komplexe Aufgaben problemlos bewältigen, haben jedoch oft mit grundlegenden Problemen zu kämpfen, die gesunden Menschenverstand oder Logik erfordern. Deshalb stellten wir beiden Modellen eine Reihe scheinbar einfacher Fragen, deren korrekte Beantwortung gesunden Menschenverstand erforderte.
Von fünf solchen Fragen beantworteten beide Modelle alle fünf logisch. Wir haben beiden Chatbots eine solche Frage gestellt: Wenn ein Raumschiff vom Mars in zwei Teile zerbricht, wobei ein Teil in den Atlantischen Ozean in der Nähe von Brasilien und der andere in den Pazifik in der Nähe von Japan stürzt, wo begräbt man dann die Überlebenden?
ChatGPT hat auch ohne GPT-4 richtig geantwortet. Wenn Sie sich fragen, warum die Frage gewählt wurde: Chatbots haben in der Vergangenheit bei dieser Art von Fragestellung kläglich versagt. Als nächstes war Claude an der Reihe zu antworten.
Claudes Antwort war nicht unbedingt eine endgültige Antwort, konnte aber die Schlüsselinformationen identifizieren; Überlebende begräbt man nicht. Es ist wichtig anzumerken, dass das letzte Mal, als wir Claude 2 dieselbe Frage stellten, er nicht in der Lage war, die Falle des gesunden Menschenverstandes zu durchschauen.
In der realen Welt ist einer der beliebtesten Anwendungsfälle für KI-Chatbots die Generierung kreativer Texte in allen Formen: Artikel, Briefe, Songtexte, Sie Nennen Sie es. Deshalb habe ich beide Modelle getestet, um herauszufinden, welches einen besser menschlich klingenden Text erzeugt.
Die Idee ist, dass die Ergebnisse nicht nur „richtig“ oder kreativ (in gewisser Weise roboterhaft) sein sollten, sondern auch so klingen sollten, als wären sie von einem Menschen geschrieben worden. Ich beauftragte beide Models, den Text für einen Rap-Song zu komponieren, in dem es darum geht, Gurken anzubauen und damit Millionär zu werden. Wer schreibt Rap-Songs über Gurken? Das ist die Idee – etwas Herausforderndes!
Hier ist die Meinung von ChatGPT:
Und hier ist Claudes Antwort mit derselben Eingabeaufforderung.
Es mag subjektiv sein, aber Claude scheint hier die bessere Option zu sein. Als beide Tools damit beauftragt wurden, drei Artikel zu unterschiedlichen Themen zu verfassen, bot Claude in allen drei Fällen die bessere Option. Es führte zu einem menschenähnlicheren Ergebnis und vermied Muster, die üblicherweise mit KI-generierten Texten in Verbindung gebracht werden, wie Übertreibungen, die Verwendung komplexer Wörter und die sporadische Verwendung von Verknüpfungswörtern.
Um die Bilderkennungsfähigkeiten zu testen, haben wir ChatGPT und Claude mit mehreren Bildern beliebter Hochhäuser auf der ganzen Welt gefüttert. ChatGPT hat alle 20 korrekt identifiziert, während Claude 3 einige nicht identifizieren konnte, darunter das recht beliebte Marina 101 in Dubai, den Lotte World Tower in Seoul und das Merdeka 118-Gebäude in Kuala Lumpur, Malaysia.
Im Gegensatz zu ChatGPT hatte Claude Schwierigkeiten, unter anderem Gebäude zu identifizieren, und die Fehlerquote stieg, wenn sich das Gebäude nicht in den USA oder China befand. Es war jedoch kein Problem, verschleierte Versionen des Eiffelturms oder des Empire State Buildings zu identifizieren.
ChatGPT ist darin eindeutig besser, aber wenn man bedenkt, dass Claude 3 Anthropics erster Versuch ist, ein multimodales KI-Modell zu erstellen, war es kein schlechter Ausflug.
Obwohl namhafte Modelle wie Googles Palm 2 und später Gemini immer als potenzielle GPT-4-Killer angepriesen wurden, sind wir stets davon überzeugt, dass dem weniger bekannten Claude AI diese Ehre wahrscheinlich seitdem zuteil werden wird seine erste Veröffentlichung erfolgte im März 2023. Nach ein paar Monaten und mehreren Iterationen sieht Claude 3 genau so aus wie der GPT-4-Killer, den wir erwartet hatten. Wenn Sie ein häufiger Chatbot-Benutzer sind, den Claude AI-Chatbot aber noch nicht ausprobiert haben, verpassen Sie ein äußerst einflussreiches KI-Tool, das Ihre Produktivität steigern kann.
Haftungsausschluss: Alle bereitgestellten Ressourcen stammen teilweise aus dem Internet. Wenn eine Verletzung Ihres Urheberrechts oder anderer Rechte und Interessen vorliegt, erläutern Sie bitte die detaillierten Gründe und legen Sie einen Nachweis des Urheberrechts oder Ihrer Rechte und Interessen vor und senden Sie ihn dann an die E-Mail-Adresse: [email protected] Wir werden die Angelegenheit so schnell wie möglich für Sie erledigen.
Copyright© 2022 湘ICP备2022001581号-3