フェッチを使用した HTTP 応答のストリーミング

表紙 > プログラミング > フェッチを使用した HTTP 応答のストリーミング

フェッチを使用した HTTP 応答のストリーミング

2024 年 7 月 31 日に公開

ブラウズ：639

Streaming HTTP Responses using fetch

この投稿では、フェッチ HTTP 呼び出しを実行し、ストリーミング応答をチャンクで受信できるようにする JavaScript Streams API の操作について説明します。これにより、クライアントはサーバー応答への応答を開始できるようになります。 ChatGPT のような UI をすばやく構築します。

やる気を起こさせる例として、npm 依存関係を使用せず、組み込みフェッチのみを使用して、OpenAI (または同じ http ストリーミング API を使用するサーバー) からのストリーミング LLM 応答を処理する関数を実装します。指数関数的バックオフによる再試行、埋め込み、非ストリーミングチャット、チャットの完了と埋め込みを操作するための単純な API を含む完全なコードはここにあります。

HTTP ストリームをクライアントに返す方法にも興味がある場合は、この投稿を参照してください。

完全なコード例

これが完全な例です。以下で各部分を見ていきます:

async function createChatCompletion(body: ChatCompletionCreateParams) {
  // Making the request
  const baseUrl = process.env.LLM_BASE_URL || "https://api.openai.com";
  const response = await fetch(baseUrl   "/v1/chat/completions", {
    method: "POST",
    headers: {
      "Content-Type": "application/json",
      "Authorization": "Bearer "   process.env.LLM_API_KEY,
    },
    body: JSON.stringify(body),
  });
  // Handling errors
  if (!response.ok) {
    const error = await response.text();
    throw new Error(`Failed (${response.status}): ${error}`,
  }
  if (!body.stream) { // the non-streaming case
    return response.json();
  }
  const stream = response.body;
  if (!stream) throw new Error("No body in response");
  // Returning an async iterator
  return {
    [Symbol.asyncIterator]: async function* () {
      for await (const data of splitStream(stream)) {
        // Handling the OpenAI HTTP streaming protocol
        if (data.startsWith("data:")) {
          const json = data.substring("data:".length).trimStart();
          if (json.startsWith("[DONE]")) {
            return;
          }
          yield JSON.parse(json);
        }
      }
    },
  };
}

// Reading the stream  
async function* splitStream(stream: ReadableStream) {
  const reader = stream.getReader();
  let lastFragment = "";
  try {
    while (true) {
      const { value, done } = await reader.read();
      if (done) {
        // Flush the last fragment now that we're done
        if (lastFragment !== "") {
          yield lastFragment;
        }
        break;
      }
      const data = new TextDecoder().decode(value);
      lastFragment  = data;
      const parts = lastFragment.split("\n\n");
      // Yield all except for the last part
      for (let i = 0; i 



ストリーミングおよび非ストリーミング パラメーターのバリアントに対する優れた型付きオーバーロード、再試行およびその他の改善を備えたバージョンについては、ここのコードを参照してください。

投稿の残りの部分は、このコードの機能を理解することについてです。


  
  
  リクエストを行う


この部分は実はとても簡単です。ストリーミング HTTP 応答は通常の HTTP 要求から来ます:



const baseUrl = process.env.LLM_BASE_URL || "https://api.openai.com";
const response = await fetch(baseUrl   "/v1/chat/completions", {
  method: "POST",
  headers: {
    "Content-Type": "application/json",
    "Authorization": "Bearer "   process.env.LLM_API_KEY,
  },
  body: JSON.stringify(body),
});




HTTP ヘッダーは通常どおり送信されるため、ストリーミングを有効にするために特に何も設定する必要はありません。また、HTTP ストリーミングでは通常のキャッシュ ヘッダーを引き続き利用できます。


  
  
  エラーの処理


クライアント側のエラーに関する話は、HTTP ストリーミングにとって少し残念です。 HTTP ストリーミングの利点は、クライアントが最初の応答でステータス コードをすぐに取得し、そこで障害を検出できることです。 http プロトコルの欠点は、サーバーが成功を返してもストリームの途中で中断した場合、ストリームが中断されたことをクライアントに伝えるものがプロトコル レベルで何もないことです。これを回避するために、OpenAI が最後に「すべて完了」センチネルをエンコードする方法を以下で見ていきます。



if (!response.ok) {
  const error = await response.text();
  throw new Error(`Failed (${response.status}): ${error}`,
}





  
  
  ストリームを読む


HTTP ストリーミング応答を読み取るために、クライアントは ReadableStream である response.body プロパティを使用できます。これにより、.getReader() メソッドを使用してサーバーから受信したチャンクを反復処理できます。¹



const reader = request.body.getReader();
try {
    while (true) {
      const { value, done } = await reader.read();
      if (done) break;
      const text = TextDecoder().decode(value);
      //... do something with the chunk
    }
} finally {
  reader.releaseLock();
}




これは返されるデータのすべてのビットを処理しますが、OpenAI HTTP プロトコルの場合、データは改行で区切られた JSON であることが期待されるため、代わりに応答本文を分割し、各行をそのまま「出力」します。再完成しました。進行中の行を lastFragment にバッファリングし、2 つの改行で区切られた完全な行のみを返します:



// stream here is request.body
async function* splitStream(stream: ReadableStream) {
  const reader = stream.getReader();
  let lastFragment = "";
  try {
    while (true) {
      const { value, done } = await reader.read();
      if (done) {
        // Flush the last fragment now that we're done
        if (lastFragment !== "") {
          yield lastFragment;
        }
        break;
      }
      const data = new TextDecoder().decode(value);
      lastFragment  = data;
      const parts = lastFragment.split("\n\n");
      // Yield all except for the last part
      for (let i = 0; i 



この関数* と yield 構文に慣れていない場合は、関数 * をループ内で複数のものを返すことができる関数として扱い、yield は関数から何かを複数回返す方法として扱います。

次に、この SplitStream 関数を次のようにループできます。



for await (const data of splitStream(response.body)) {
  // data here is a full line of text. For OpenAI, it might look like
  // "data: {...some json object...}" or "data: [DONE]" at the end
}




この「for await」構文が気になる場合は、いわゆる「非同期イテレータ」が使用されています。これは、for ループで使用する通常のイテレータのようなものですが、次の値を取得するたびに待機されます。 

この例では、OpenAI からテキストを取得し、さらに待機している場合、for ループは、splitStream が別の値を生成するまで待機します。これは、await Reader.read() が終了値を返したときに発生します。 1 行以上のテキスト。

次に、splitStream のような関数ではない非同期イテレータを返す別の方法を見ていきます。これにより、呼び出し元は「for await」ループを使用してこのデータを反復処理できます。


  
  
  非同期イテレータを返す


完全なテキスト行を返す非同期イテレータができたので、splitStream(response.body) を返すだけで済みますが、関数の呼び出し元に反復処理をさせながら、各行をインターセプトして変換したいと考えています。 。 

このアプローチは、上記の async function* 構文と似ています。ここでは、呼び出されたときに非同期イテレータを返す非同期関数の代わりに、非同期イテレータを直接返します。違いは、型が AsyncGenerator ではなく AsyncIterator であり、最初に呼び出す必要があることです。 AsyncIterator は、特定の名前付き関数 Symbol.asyncIterator.² を使用して定義できます。



      return {
        [Symbol.asyncIterator]: async function* () {
          for await (const data of splitStream(stream)) {
            //handle the data
            yield data;
          }
        },
      };




これは、splitStream からのデータとは異なるものを返したい場合に便利です。ストリーミング HTTP リクエストから新しい行が入るたびに、splitStream がそれを生成し、この関数がそれをデータで受け取り、呼び出し元に渡す前に何かを行うことができます。 

次に、特に OpenAI のストリーミング チャット完了 API の場合にこのデータを解釈する方法を見ていきます。


  
  
  OpenAI HTTP ストリーミング プロトコルの処理


OpenAI 応答プロトコルは data: またはevent: で始まる一連の行ですが、データ応答のみを処理します。これはチャットの完了に役立つ部分だからです。ストリームが完了すると [DONE] というメッセージが表示されますが、それ以外の場合は単なる JSON です。



for await (const data of splitStream(stream)) {
  if (data.startsWith("data:")) {
    const json = data.substring("data:".length).trimStart();
    if (json.startsWith("[DONE]")) {
      return;
    }
    yield JSON.parse(json);
  } else {
    console.debug("Unexpected data:", data);
  }
}





  
  
  すべてをひとつにまとめる


HTTP ストリーミングについて理解したので、SDK やライブラリに依存せずに、自信を持ってストリーミング API を直接操作できるようになります。これにより、複数のリクエストでより多くの帯域幅を消費することなく、UI の更新をすぐに開始できるため、遅延を隠すことができます。上記の関数は、公式の openai npm パッケージと同じように使用できます:



  const response = await createChatCompletion({
    model: "llama3",
    messages: [...your messages...],
    stream: true,
  });
  for await (const chunk of response) {
    if (chunk.choices[0].delta?.content) {
      console.log(chunk.choices[0].delta.content);
    }
  }




ここのコードを参照してください。このコードでは、モデルを事前に設定して .choices[0].delta.content:
 を抽出することで、これをさらに簡単にするいくつかのユーティリティ関数も作成できます。


const response = await chatStream(messages);
for await (const content of response) {
  console.log(content);
}




コードをコピーする前に、非同期関数の演習としてコードを自分で実装してみてください。


  
  
  その他のリソース



独自のサーバー エンドポイントから HTTP ストリーミング データを返す方法については、HTTP ストリーミングを使用した AI チャットに関するこの投稿を確認してください。これは、OpenAI (または類似のもの) からサーバーにデータをストリーミングし、同時にそれをクライアントにストリーミングします。カスタム ロジック (チャンクをデータベースに保存するなど)。
MDN ドキュメントはいつものように素晴らしいです。上記のリンク以外に、読み取り可能なストリーム API に関するガイドがあり、読み取り可能なストリームを  タグに接続して画像リクエストでストリーミングする方法を示しています。注: このガイドでは、response.body を非同期イテレータとして使用しますが、現在、これは広く実装されておらず、TypeScript 型にも含まれていません。








注: ストリームのリーダーは一度に 1 つだけしか持てないので、通常は .getReader() を複数回呼び出すことはありません。その場合、および を使用したい場合は、おそらく .tee() が必要になります。何らかの理由で getReader() を複数回実行する場合は、必ず最初の .releaseLock() を最初に実行してください。 ↩



または、シンボルに慣れていない場合は、オブジェクトに文字列や数値ではないキーを設定する方法で使用できます。こうすることで、asyncIterator という名前のキーを追加した場合でも競合しなくなります。 myIterator[Symbol.asyncIterator]() を使用して関数にアクセスできます。 ↩

リリースステートメントこの記事は次の場所に転載されています: https://dev.to/ianmacartney/streaming-http-responses-using-fetch-1fm2?1 侵害がある場合は、[email protected] に連絡して削除してください。

最新のチュートリアルもっと>

GOコンパイラでコンパイルの最適化をカスタマイズするにはどうすればよいですか？
goコンパイラのコンピレーション最適化のカスタマイズGOのデフォルトのコンパイルプロセスは、特定の最適化戦略に従います。ただし、ユーザーは特定の要件に対してこれらの最適化を調整する必要がある場合があります。これは、コンパイラが事前に定義されたヒューリスティックに基づいて最適化を自動的に...

プログラミング 2025-03-25に投稿されました
Javaのフルスクリーン専用モードでユーザー入力を処理する方法は？
ハンドリングユーザー入力は、java intuling in full screenの排他的モードでのフルスクリーンの排他的モードでのハンドリングを排他的モードで実行するとき、通常のイベント処理メカニズムは予想されるように機能しない場合があります。この記事では、このモードでキーボード...

プログラミング 2025-03-25に投稿されました
配列
メソッドはfnsであり、オブジェクトで呼び出すことができます配列はオブジェクトであるため、JSにもメソッドがあります。スライス（開始）：元の配列を変異せずに、新しい配列に配列の一部を抽出します。 let arr = ['a','b','c','d','e']; // Use...

プログラミング 2025-03-25に投稿されました
PHPを使用してXMLファイルから属性値を効率的に取得するにはどうすればよいですか？
XMLファイルから属性値をPHP の取得します。提供されている例のような属性を含むXMLファイルを使用する場合： $xml = simplexml_load_file($file); foreach ($xml->Var[0]->attributes() as $att...

プログラミング 2025-03-25に投稿されました
さまざまな数の列を持つデータベーステーブルを結合するにはどうすればよいですか？
異なる列とのテーブルを組み合わせた ] は、データベーステーブルを異なる列とマージしようとする場合に課題に遭遇する可能性があります。簡単な方法は、列が少ないテーブルに欠落している列にnull値を追加することです。たとえば、表Aの2つの表Aと表Bを検討してください。表Aには、表Bよりも多く...

プログラミング 2025-03-25に投稿されました
複数のユーザータイプ（学生、教師、および管理者）をFireBaseアプリでそれぞれのアクティビティにリダイレクトする方法は？
red：複数のユーザータイプをそれぞれのアクティビティにリダイレクトする方法ログイン。現在のコードは、2つのユーザータイプのリダイレクトを正常に管理しますが、3番目のタイプ（admin）を組み込もうとするときに課題に直面します。元のスキーマは、2種類のユーザーのみに対応していました。 3...

プログラミング 2025-03-25に投稿されました
Pythonの文字列から絵文字を削除する方法：一般的なエラーを修正するための初心者のガイド？
emojisをpython emojisの除去する絵文字を削除するための提供されたPythonコードは、構文誤差が含まれているため失敗します。 Unicode文字列は、Python 2のU ''プレフィックスを使用して指定する必要があります。さらに、Re.Unicod...

プログラミング 2025-03-25に投稿されました
JavaScriptで複数の変数を宣言する方法はより保守可能ですか？
javascriptの複数の変数を宣言する：2つの方法を調査する javascriptでは、開発者はしばしば複数の変数を宣言する必要性に遭遇します。これの2つの一般的なアプローチは次のとおりです。 var variable2 = "Testing ..."; var...

プログラミング 2025-03-25に投稿されました
動的にサイズの親要素内の要素のスクロール範囲を制限する方法は？
垂直スクロール要素のcss高さ制限の実装インタラクティブインターフェイスで、要素のスクロール挙動を制御することは、ユーザーエクスペリエンスとアクセシビリティを確保するために不可欠です。そのようなシナリオの1つは、動的にサイズの親要素内の要素のスクロール範囲を制限することです。ただし、マッ...

プログラミング 2025-03-25に投稿されました
バージョン5.6.5の前にMySQLのタイムスタンプ列を使用してcurrent_timestampを使用することの制限は何でしたか？
の制限current_timestampがデフォルトまたは5.6.5より前のmysqlバージョンのcurrent_timestampの更新条項の制限は歴史的に、5.6.5以前のmysqlバージョンでは、デフォルトの列のみを制限しました。 current_timestamp句。この制限は、20...

プログラミング 2025-03-25に投稿されました
Google APIから最新のjQueryライブラリを取得する方法は？
Google Apis から最新のjQueryライブラリを取得します。最新バージョンを取得するために、以前は特定のバージョン番号を使用する代替手段がありました。これは、次の構文を使用するものでした。 /latest/jquery.js .jquery.com/jQuery-latest...

プログラミング 2025-03-25に投稿されました
配列を分割する方法の数
2270。配列を分割する方法の数難易度： medium トピック： array、prefix sum 0-Indexed integer array nums of length n。が与えられます。 numsには、次の場合は index iで有効なsplit が含まれ...

プログラミング 2025-03-25に投稿されました
PostgreSQLの各一意の識別子の最後の行を効率的に取得するにはどうすればよいですか？
postgresql：各一意の識別子の最後の行を抽出します。次のデータを検討してください： select distinct on (id) id, date, another_info from the_table order by id, date desc; データセット内の一...

プログラミング 2025-03-25に投稿されました
JavaScriptオブジェクトにキーを動的に設定する方法は？
JavaScriptオブジェクト変数の動的キーを作成する方法この構文jsObj['key' i] = 'example' 1; はjavascriptで、アレイは特殊なタイプのオブジェクトです。この特別な動作は標準のオブジェクトによって模倣されていませんが、四角いブラケット演算子は...

プログラミング 2025-03-25に投稿されました
Javaの「DD/MM/YYYY HH：MM：SS.SS」形式で現在の日付と時刻を正しく表示するにはどうすればよいですか？
「dd/mm/yyyy hh：mm：ss.ss」形式で現在の日付と時刻を表示する方法。異なるフォーマットパターンを持つさまざまなSimpleDateFormatインスタンスの使用にあります。 java.text.simpledateformat; java.util.calendarをインポ...

プログラミング 2025-03-25に投稿されました