Anthropic は、GPT-4 を混乱させる可能性のある AI モデルのファミリーである Claude 3 のリリースを発表しました。傑出したポテンシャルを持っていますが、ChatGPT の王座を奪う準備はできていますか?
Claude 3 は、Anthropic が AI モデルの Claude 2 シリーズを置き換えるために開発した 3 つのマルチモーダル AI モデルのファミリーです。 Claude 3 は、Google の Gemini と OpenAI の GPT-4 に対する Anthropic の答えであると言えます。知能の高い順に、Haiku、Sonnet、Opus の 3 つのバージョンでリリースされた Claude 3 は、Anthropic の最初のマルチモーダル AI モデルであり、Claude 2 シリーズからの大幅な進歩を表しています。
Claude AI チャットボットについて聞いたことがないとしても、それは理解できます。 Claude とその基礎となるモデルは、ChatGPT のようなスーパースターの地位や、Google の Gemini のようなブランド力を享受していません。しかし、Claude は間違いなく世界で最も先進的な AI チャットボットの 1 つであり、いくつかの重要な分野で評判の高い ChatGPT を上回っています。
Claude 3 を真に評価するには、以前のモデルの失敗を振り返ることが重要です。
Claude の初期のバージョンは、AI の安全性に対する過度のアプローチで評判でした。たとえば、Claude 2 の安全機能は非常に厳密であったため、明らかな安全上の問題がないトピックであっても、チャットボットがあまりにも多くのトピックを回避してしまいました。 モデルのコンテキスト ウィンドウにも問題がありました。 AI モデルに何かを説明してもらったり、長い記事を要約してもらったりするとき、一度に記事の数段落しか読めないと想像してください。一度に考慮できるテキストの量のこの制限は、「コンテキスト ウィンドウ」と呼ばれます。 Claude の以前のバージョンには、200k トークン (150,000 ワードに相当) のコンテキスト ウィンドウが付属していました。ただし、このモデルでは、一度に大量のテキストを、その一部を忘れずに処理することは実際にはできませんでした。 マルチモダリティの問題もありました。ほぼすべての主要な AI モデルはマルチモーダルになっています。これは、画像などの他の形式のデータを処理し、(テキスト入力だけでなく) そのデータに応答できることを意味します。クロードにはそれができなかった。3 つの問題はすべて、Claude 3 のリリースで完全に、または少なくとも部分的に解決されました。
世の中のほとんどの最先端の生成 AI モデルと同様に、Claude 3 は、さまざまな分野にわたるさまざまなクエリに対して最高の応答を生成できます。代数の問題をすばやく解決する必要がある場合でも、まったく新しい曲を作成する場合でも、詳細な記事を作成する必要がある場合でも、ソフトウェア用のコードを作成する必要がある場合でも、大規模なデータセットを分析する必要がある場合でも、Claude 3 はその要件に適合します。
しかし、ほとんどの AI モデルはすでにこれらのタスクに優れているのに、なぜ Claude 3 を使用するのでしょうか?
答えは簡単です。 Claude 3 は、これらのタスクに優れた単なる AI モデルではなく、インターネット上のどこでも入手できる、自由に利用できる最先端のマルチモーダル AI モデルです。はい、Google が大々的に宣伝し、ベンチマーク テストで印象的なパフォーマンスを発揮する GPT-4 キラーとされる Gemini があります。しかし、Anthropic は、いくつかのタスクに関しては Claude 3 が大幅に優れていると主張しています。ベンチマークの結果は割り引いて考える必要があることが多いですが、両方の AI モデルをテストしてみたところ、いくつかの重要なユースケースにおける Claude 3 モデルの優位性は非常に明らかでした。
したがって、Claude 3 を使用すると、ChatGPT プレミアムの 20 ドルのサブスクリプション料金を支払うことなく、Gemini と GPT-4 (マイナス画像生成) でできることのほとんどを実行できます。
AI モデルのパフォーマンスをテストする簡単な方法は、市場で最高のモデルである GPT-4 と比較してどれだけ優れているかを確認することです。もちろん、私は両方のモデルをテストしました。 Anthropic の Claude 3 は巨大な GPT-4 に対してどれだけ優れていますか?
一連のプログラミング タスクから始めて、Claude 3 は提示されたすべての基本的なプログラミング タスクで GPT -4 の能力に匹敵し、一部のタスクでは GPT -4 を上回るパフォーマンスを示しました。私は基本的なものだけをテストしましたが、2023 年 9 月に ChatGPT とクロードの比較でテストしたとき、クロードの前のバージョンは同じタスクでの習熟度が著しく低かったです。たとえば、両方のモデルに簡単な To-Do を構築するように依頼したときlist アプリ、Claude はすべてのインスタンスで失敗しましたが、ChatGPT は当時いわゆる 5 つ星のパフォーマンスを示しました。
最新リリースでは、Claude 3 はテストした 3 つのインスタンスすべてでパフォーマンスの向上した To Do リスト アプリを作成しました。 To Do リスト アプリの作成を求められた場合の GPT-4 の結果は次のとおりです。
そして、これが同じことをするよう依頼されたクロード 3 の結果です。
どちらのアプリもある程度機能していましたが、明らかに Claude 3 の方がこちらの方が優れた仕事をしました。
より複雑なプログラミング テストを試した結果、いくつかのケースではクロードの方が優れたモデルでしたが、GPT-4 にも勝利がありました。 Claude 3 の方がプログラミング ロジックにおいて優れているとは断定できませんが、2 つのモデル間に大きな差があったとしても、その差はほぼ確実に縮まっていたでしょう。
常識的推論に基づいて両方のモデルをテストしてみました。 AI チャットボットの操作には興味深い矛盾があります。 AI チャットボットは複雑なタスクを簡単に処理できますが、常識や論理を必要とする基本的な問題には苦労することがよくあります。そこで、両方のモデルに、正しく答えるために常識が必要な、一見単純な一連の質問を与えました。
このような 5 つの質問のうち、両方のモデルは 5 つすべてに論理的に答えました。私たちは両方のチャットボットに次のような質問をしました。火星から来た宇宙船が 2 つに分裂し、片方がブラジル近くの大西洋に、もう片方が日本近くの太平洋に墜落した場合、生存者をどこに埋葬しますか?
ChatGPT は GPT-4 がなくても正しく応答しました。この質問を選んだ理由が気になるなら、チャットボットは歴史的にこの種の質問でひどい失敗をしてきました。次はクロードが答える番だった。
クロードの応答は正確には決定的な答えではありませんでしたが、重要な情報を特定することができました。あなたは生存者を埋葬しません。前回クロード 2 に同じ質問をしたとき、常識の罠を見破ることができなかったことに注意することが重要です。
現実の世界では、AI チャットボットの最も人気のある使用例の 1 つは、記事、手紙、歌詞、あなたなど、あらゆる形式でクリエイティブ テキストを生成することです。名前を付けてください。そこで、両方のモデルをテストして、どちらがより人間らしい響きのテキストを作成できるかを判断しました。
そのアイデアは、結果が単に「正しい」、または (ロボットのような方法で) 創造的であるだけでなく、あたかも人間によって書かれたかのように聞こえるべきであるということです。私は両方のモデルに、キュウリを育てて億万長者になることについてのラップソングの歌詞を作曲するよう依頼しました。キュウリについてのラップソングを書いているのは誰ですか?それが、挑戦的なアイデアです。
ChatGPT の見解は次のとおりです:
そして、同じプロンプトを使用したクロードの応答は次のとおりです。
主観的かもしれませんが、ここではクロードの方が良い選択肢のように思えます。両方のツールが異なるトピックに関する 3 つの記事の下書きを担当したとき、3 つの場合すべてにおいて Claude がより良いオプションを提供しました。これにより、より人間らしい結果が得られ、誇張表現、複雑な単語の使用、接続単語の散発的な使用など、AI が生成したテキストに一般的に関連付けられるパターンが回避されました。
画像認識能力をテストするために、ChatGPT と Claude に世界中の人気のある高層ビルの画像をいくつか与えました。 ChatGPT はそれら 20 件すべてを正しく識別しましたが、Claude 3 は、かなり人気のあるドバイのマリーナ 101、ソウルのロッテワールド タワー、マレーシアのクアラルンプールのムルデカ 118 ビルなどの一部を識別できませんでした。
ChatGPT とは異なり、Claude は特に建物の特定に苦労し、建物が米国または中国にない場合は失敗率が増加しました。ただし、エッフェル塔やエンパイア ステート ビルディングの難読化されたバージョンを問題なく識別できました。
この点では ChatGPT の方が明らかに優れていますが、Claude 3 が Anthropic によるマルチモーダル AI モデル構築の最初の試みであることを考慮すると、これは悪くありませんでした。
Google の Palm 2 やその後の Gemini などの有名モデルは常に潜在的な GPT-4 キラーとしてもてはやされてきましたが、私たちは、あまり知られていない Claude AI がその栄誉を手にする可能性が高いと、以来一貫して主張してきました。最初のリリースは 2023 年 3 月です。数か月と数回の反復を経て、Claude 3 は私たちが予想していた GPT-4 キラーとまったく同じようになりました。あなたがチャットボットのヘビー ユーザーであるにもかかわらず、Claude AI チャットボットを試したことがない場合は、生産性を大幅に向上させることができる非常に影響力のある AI ツールを見逃していることになります。
免責事項: 提供されるすべてのリソースの一部はインターネットからのものです。お客様の著作権またはその他の権利および利益の侵害がある場合は、詳細な理由を説明し、著作権または権利および利益の証拠を提出して、電子メール [email protected] に送信してください。 できるだけ早く対応させていただきます。
Copyright© 2022 湘ICP备2022001581号-3