ChatGPT はあらゆる質問に答えることができますが、一部のユーザーは、その応答に盗作が含まれているかどうか疑問に思っています。これを調査するために、ChatGPT を使用して 4 つの異なるタイプのテキストを生成し、さまざまな盗用検出ツールを使用してそれらの独創性を評価しました。
ChatGPT が盗作の罪を犯しているかどうかを判断するには、まず盗作の構成要素を理解する必要があります。剽窃には、適切な帰属を明示せずに、他人の言葉、アイデア、作品を使用することが含まれます。これには、引用せずにソースからテキストを直接コピーしたり、承認なしに他人のアイデアを厳密に言い換えたりすることが含まれます。
ChatGPT は、他の大規模言語モデル (LLM) と同様に、大部分が公開されているコンテンツからの大規模なデータセットでトレーニングされます。ただし、元の作成者は自分たちの作品が LLM のトレーニングに使用されることに同意していないため、このような膨大な量のデータを収集すると倫理的な問題が生じます。これは、そのような行為の倫理と合法性についての議論につながります。
ChatGPT は受信したプロンプトに基づいて応答を生成しますが、問題は OpenAI (ChatGPT の開発者) がトレーニングに使用されるデータをどのように取得したかというより広範なコンテキストにあり、これには適切な同意なしにコンテンツを使用することが含まれます。多くの人はこれを盗作、そして多くの Web サイトではコンテンツの窃盗とみなしています。ただし、盗作の正確なソースを特定することは困難です。
この記事の残りの部分では、ChatGPT が応答の出所の詳細には立ち入らずに、ChatGPT が他のソースからの出力を盗用しているかどうかに焦点を当てます。チャットボットがオンライン ソースからのテキストを直接使用しているかどうかを確認するために、さまざまな盗作検出ツールを使用して ChatGPT の応答の独創性をチェックしてみましょう。
この最初の例では、ChatGPT に精神的健康問題に関する 300 語のエッセイを作成するよう依頼しました。
その後、さまざまな盗作検出ツールを使用して、チャットボットによって生成されたエッセイの独創性を評価しました。これらのツールには、Quetext 盗作チェッカー、Microsoft Word の組み込み盗作チェッカー、Grammarly の盗作チェッカー、および Duplichecker 盗作スキャナーが含まれます。
Microsoft の組み込み類似性チェッカーは、オンライン ソースとの類似性が 0% であると報告しました。他のツールによって検出された盗作のレベルも最小限でした。Grammarly の盗作検出では 4 パーセント、QueText の盗作検出では 5 パーセント、Duplichecker の盗作スキャナでは 0 パーセントが検出されました。
検出された盗作の割合が少ないことを考慮すると、ChatGPT は既存のソースからエッセイを直接コピーしていないようです。
ChatGPT がコードを盗用しているかどうかを評価するために、チャットボットに Python で計算機のコードを書くように指示しました。
その後、Dolos と呼ばれる特殊なプログラミング盗用チェッカーを使用してコードの盗用チェックを実施したところ、類似性は 0% でした。また、上記の一般的なテキスト盗用検出ツールを使用してコードをチェックしたところ、結果は一貫しており、4% を超える盗用を検出するプログラムはほとんどありませんでした。
ChatGPT にさまざまなアカウントから電卓のコードを生成するように指示すると、応答が異なるように見えました。この観察と盗作チェックの結果は、ChatGPT がオンライン ソースからコードを単純に複製するわけではないことを示しています。代わりに、トレーニングされたデータセットを利用してコードを独立して生成します。
3 回目のテストでは、チャットボットに数学的問題を解決し、各ステップの詳細な推論を提供するように指示しました。
応答の独創性をチェックするために、PapersOwl 盗作チェッカー、AI を活用した Trinka 盗作スキャナー、および次のような一般的な盗作チェッカー ツールを含む、いくつかの学術固有の盗作検出ツールを使用してその出力をテストしました。 Grammarly、Duplichecker、QueText など。
PapersOwl の盗作検出機能は、チャットボットが生成した推論とオンライン ソースとの間に 46% 近くの類似性があることを示しました。同様に、Trinka 盗作検出器は 10% 以上の類似性を報告しました。さらに、Grammarly の盗作検出機能では 14 パーセントの類似性が検出され、QueText では 17 パーセント、Duplichecker では 7 パーセントの類似性が検出されました。
生成された応答で高度な盗作が検出されたことは、チャットボットが数学的な質問の推論をオンライン ソースから直接コピーしたことを示唆するものではありません。これは主に、数学の問題の解決策と推論が標準的なものが多く、オンラインで広く入手できるためです。
つまり、ChatGPT が独自の回答を考え出したとしても、オンラインで同じ回答を見つけて推論することが可能であり、これが盗作率の高さに拍車をかけている可能性があります。
ChatGPT がオンライン ブログのコンテンツを使用しているかどうかを確認するために、ラップトップのバッテリーの状態を維持するためのヒントを提供するようにチャットボットに依頼しました。
Microsoft Word は、生成されたテキストの 10% の盗用を検出しました。 Duplichecker は 4%、Grammarly の盗作チェッカーは 14% を示しましたが、Quetext はテキスト内の 58% の盗作を発見しました。さらに詳しく調べると、チャットボットの応答のテキストの一部が一部のブログの内容と一致しました。
盗作検出率が高いのは単なる偶然ではないかを再確認するために、オンラインで簡単に入手できる情報についてチャットボットにさらにいくつかの質問をしました。生成された応答における盗用の割合ははるかに高かった。私たちのテストによると、チャットボットはオンライン ソースからのフレーズやテキストを使用することがあるようですが、これは非常に驚くべきことです。
多くの無料オンライン盗作チェッカーは ChatGPT の応答から重大な盗作を検出していませんが、学術的または専門的な目的で使用すべきではありません。
学生の場合は、学校の課題に ChatGPT を使用しないでください。講師は GPTZero や Turnitin の AI 書き込み検出器などのツールを使用して、AI によって生成されたコンテンツを特定できます。このようなツールによってあなたの作品が AI によって生成されたものとしてマークされると、課題に不合格になったり、退学になったりする可能性があります。多くの GPT 検出ツールは、この目的には使用すべきではないと明示していますが、実際には使用すべきであり、問題が発生する可能性があります。言うまでもなく、そのトピックを適切に勉強しないことは、実際には自分自身をだましているだけです。
チャットボットを使用して仕事のパフォーマンスを向上させることはできますか?場合によります。電子メールやその他のテキスト形式での書き方を改善したい場合、AI を使用すると時間と労力を節約できます。ただし、仕事全体をこれに依存するのではなく、タスクを支援するツールとしてのみ使用する必要があります。
対照的に、プロの執筆などの仕事でそのようなツールの使用が禁止されている場合は、ChatGPT やその他のツールの使用を完全に避けるべきです。
私たちのテストにより、ChatGPT が Web 上で利用可能なリソースをどの程度活用できるかについて洞察が得られたことを願っています。ただし、無料の盗用ツールを使用し、限られたデータセットのみをテストしたことに注意することが重要です。したがって、私たちの調査結果は役に立つかもしれませんが、絶対的な事実として受け取られるべきではありません。
免責事項: 提供されるすべてのリソースの一部はインターネットからのものです。お客様の著作権またはその他の権利および利益の侵害がある場合は、詳細な理由を説明し、著作権または権利および利益の証拠を提出して、電子メール [email protected] に送信してください。 できるだけ早く対応させていただきます。
Copyright© 2022 湘ICP备2022001581号-3