Потоковая передача HTTP-ответов с использованием выборки

титульная страница > программирование > Потоковая передача HTTP-ответов с использованием выборки

Потоковая передача HTTP-ответов с использованием выборки

Опубликовано 31 июля 2024 г.

Просматривать:614

Streaming HTTP Responses using fetch

В этом посте будет рассмотрена работа с API JavaScript Streams, который позволяет выполнять HTTP-вызов выборки и получать потоковый ответ частями, что позволяет клиенту начать отвечать на ответ сервера. быстро и создавайте пользовательские интерфейсы, такие как ChatGPT.

В качестве мотивирующего примера мы реализуем функцию для обработки потокового ответа LLM от OpenAI (или любого сервера, использующего тот же API потоковой передачи HTTP), не используя никаких зависимостей npm — только встроенную выборку. Здесь представлен полный код, включая повторы с экспоненциальной задержкой, встраивания, непотоковое чат и более простые API для взаимодействия с завершением и встраиванием чата.

Если вам интересно узнать, как также вернуть HTTP-поток клиентам, прочтите этот пост.

Полный пример кода

Вот полный пример. Мы рассмотрим каждую часть ниже:

async function createChatCompletion(body: ChatCompletionCreateParams) {
  // Making the request
  const baseUrl = process.env.LLM_BASE_URL || "https://api.openai.com";
  const response = await fetch(baseUrl   "/v1/chat/completions", {
    method: "POST",
    headers: {
      "Content-Type": "application/json",
      "Authorization": "Bearer "   process.env.LLM_API_KEY,
    },
    body: JSON.stringify(body),
  });
  // Handling errors
  if (!response.ok) {
    const error = await response.text();
    throw new Error(`Failed (${response.status}): ${error}`,
  }
  if (!body.stream) { // the non-streaming case
    return response.json();
  }
  const stream = response.body;
  if (!stream) throw new Error("No body in response");
  // Returning an async iterator
  return {
    [Symbol.asyncIterator]: async function* () {
      for await (const data of splitStream(stream)) {
        // Handling the OpenAI HTTP streaming protocol
        if (data.startsWith("data:")) {
          const json = data.substring("data:".length).trimStart();
          if (json.startsWith("[DONE]")) {
            return;
          }
          yield JSON.parse(json);
        }
      }
    },
  };
}

// Reading the stream  
async function* splitStream(stream: ReadableStream) {
  const reader = stream.getReader();
  let lastFragment = "";
  try {
    while (true) {
      const { value, done } = await reader.read();
      if (done) {
        // Flush the last fragment now that we're done
        if (lastFragment !== "") {
          yield lastFragment;
        }
        break;
      }
      const data = new TextDecoder().decode(value);
      lastFragment  = data;
      const parts = lastFragment.split("\n\n");
      // Yield all except for the last part
      for (let i = 0; i 



Здесь приведен код версии, которая имеет удобные типизированные перегрузки для вариантов параметров потоковой и непотоковой передачи, а также повторные попытки и другие улучшения.

Остальная часть поста посвящена пониманию того, что делает этот код.


  
  
  Оформление запроса


На самом деле эта часть очень проста. Потоковый HTTP-ответ поступает из обычного HTTP-запроса:



const baseUrl = process.env.LLM_BASE_URL || "https://api.openai.com";
const response = await fetch(baseUrl   "/v1/chat/completions", {
  method: "POST",
  headers: {
    "Content-Type": "application/json",
    "Authorization": "Bearer "   process.env.LLM_API_KEY,
  },
  body: JSON.stringify(body),
});




Заголовки HTTP отправляются как обычно, и для включения потоковой передачи не требуется ничего устанавливать. И вы по-прежнему можете использовать обычные заголовки кэширования для потоковой передачи HTTP.


  
  
  Обработка ошибок


История с ошибками на стороне клиента немного неудачна для потоковой передачи HTTP. Положительным моментом является то, что для потоковой передачи HTTP клиент сразу получает коды состояния в первоначальном ответе и может обнаружить там сбой. Недостатком протокола http является то, что если сервер возвращает успех, но затем прерывается в середине потока, на уровне протокола нет ничего, что сообщало бы клиенту, что поток был прерван. Ниже мы увидим, как OpenAI кодирует сигнал «все готово» в конце, чтобы обойти эту проблему.



if (!response.ok) {
  const error = await response.text();
  throw new Error(`Failed (${response.status}): ${error}`,
}





  
  
  Чтение потока


Чтобы прочитать ответ потоковой передачи HTTP, клиент может использовать свойство response.body, которое представляет собой ReadableStream, позволяющее перебирать фрагменты по мере их поступления с сервера с помощью метода .getReader().¹



const reader = request.body.getReader();
try {
    while (true) {
      const { value, done } = await reader.read();
      if (done) break;
      const text = TextDecoder().decode(value);
      //... do something with the chunk
    }
} finally {
  reader.releaseLock();
}




Это обрабатывает каждый бит данных, которые мы получаем обратно, но для протокола OpenAI HTTP мы ожидаем, что данные будут в формате JSON, разделенные символами новой строки, поэтому вместо этого мы разделим тело ответа и «выдадим» каждую строку по мере их получения. повторно завершено. Мы буферизуем выполняющуюся строку в LastFragment и возвращаем только полные строки, разделенные двумя символами новой строки: 



// stream here is request.body
async function* splitStream(stream: ReadableStream) {
  const reader = stream.getReader();
  let lastFragment = "";
  try {
    while (true) {
      const { value, done } = await reader.read();
      if (done) {
        // Flush the last fragment now that we're done
        if (lastFragment !== "") {
          yield lastFragment;
        }
        break;
      }
      const data = new TextDecoder().decode(value);
      lastFragment  = data;
      const parts = lastFragment.split("\n\n");
      // Yield all except for the last part
      for (let i = 0; i 



Если эта функция* и синтаксис доходности вам незнакомы, просто рассматривайте функцию* как функцию, которая может возвращать несколько элементов в цикле, а выход — как способ многократного возврата чего-либо из функции.

Затем вы можете перебрать эту функцию SplitStream, например: 



for await (const data of splitStream(response.body)) {
  // data here is a full line of text. For OpenAI, it might look like
  // "data: {...some json object...}" or "data: [DONE]" at the end
}




Если синтаксис for await вас сбивает с толку, он использует так называемый «асинхронный итератор» — он похож на обычный итератор, который вы бы использовали с циклом for, но каждый раз, когда он получает следующее значение, он ожидается. 

Для нашего примера, когда мы получили некоторый текст от OpenAI и ждем продолжения, цикл for будет ждать, пока SplitStream не вернет другое значение, что произойдет, когда await reader.read() вернет значение, которое завершается. одна или несколько строк текста.

Далее мы рассмотрим другой способ возврата асинхронного итератора, который не является такой функцией, как SplitStream, чтобы вызывающая сторона могла использовать цикл «for await» для перебора этих данных.


  
  
  Возврат асинхронного итератора


Теперь, когда у нас есть асинхронный итератор, возвращающий полные строки текста, мы могли бы просто вернуть SplitStream(response.body), но мы хотим перехватить каждую из строк и преобразовать их, в то же время позволяя вызывающему объекту нашей функции выполнять итерацию. . 

Подход аналогичен синтаксису асинхронной функции*, приведенному выше. Здесь мы вернем асинхронный итератор напрямую, а не асинхронную функцию, которая возвращает его при вызове. Разница в том, что типом является AsyncIterator вместо AsyncGenerator, который необходимо вызвать первым. AsyncIterator можно определить с помощью определенной именованной функции: Symbol.asyncIterator.²



      return {
        [Symbol.asyncIterator]: async function* () {
          for await (const data of splitStream(stream)) {
            //handle the data
            yield data;
          }
        },
      };




Это полезно, если вы хотите вернуть что-то отличное от данных, поступающих из SplitStream. Каждый раз, когда из потокового HTTP-запроса поступает новая строка, функция SplitStream возвращает ее, эта функция получает ее в виде данных и может что-то сделать, прежде чем передать ее вызывающей стороне. 

Далее мы рассмотрим, как интерпретировать эти данные конкретно в случае API завершения потокового чата OpenAI.


  
  
  Обработка протокола потоковой передачи HTTP OpenAI


Протокол ответа OpenAI представляет собой серию строк, которые начинаются с data: или event:, но мы будем обрабатывать только ответы с данными, поскольку это полезная часть для завершения чата. Если поток завершен, отображается индикатор [DONE], в противном случае это просто JSON.



for await (const data of splitStream(stream)) {
  if (data.startsWith("data:")) {
    const json = data.substring("data:".length).trimStart();
    if (json.startsWith("[DONE]")) {
      return;
    }
    yield JSON.parse(json);
  } else {
    console.debug("Unexpected data:", data);
  }
}





  
  
  Собираем все это вместе


Теперь, когда вы понимаете потоковую передачу HTTP, вы можете чувствовать себя уверенно, работая напрямую с API потоковой передачи, не полагаясь на SDK или библиотеки. Это позволяет вам скрыть задержку, поскольку ваш пользовательский интерфейс может немедленно начать обновление, не потребляя больше трафика при выполнении нескольких запросов. Вы можете использовать вышеуказанную функцию так же, как и в официальном пакете openai npm:



  const response = await createChatCompletion({
    model: "llama3",
    messages: [...your messages...],
    stream: true,
  });
  for await (const chunk of response) {
    if (chunk.choices[0].delta?.content) {
      console.log(chunk.choices[0].delta.content);
    }
  }




См. код здесь, который также позволяет вам создать некоторые служебные функции, чтобы сделать это еще проще, предварительно настроив модель и извлекая .choices[0].delta.content:



const response = await chatStream(messages);
for await (const content of response) {
  console.log(content);
}




Прежде чем копировать код, попробуйте реализовать его самостоятельно в качестве упражнения по асинхронным функциям.


  
  
  Больше ресурсов



Для получения информации о возврате потоковых данных HTTP с конечной точки вашего собственного сервера прочтите этот пост в AI Chat с HTTP Streaming, который одновременно передает данные из OpenAI (или аналогичного) на ваш сервер и одновременно передает их клиенту, одновременно выполняя пользовательская логика по мере ее реализации (например, сохранение фрагментов в базе данных).
Документация MDN, как всегда, великолепна. Помимо приведенных выше ссылок, вот руководство по API читаемых потоков, которое показывает, как подключить читаемый поток к тегу  для потоковой передачи в запросе изображения. Примечание. В этом руководстве в качестве асинхронного итератора используется response.body, но в настоящее время он широко не реализован и не используется в типах TypeScript.








Примечание: одновременно у вас может быть только один читатель потока, поэтому обычно вы не вызываете .getReader() несколько раз - в этом случае вам, вероятно, понадобится .tee(), и если вы хотите использовать . getReader() несколько раз по какой-то причине, сначала убедитесь, что у вас есть первый .releaseLock(). ↩



Или, альтернативно, вы можете. Если вы не знакомы с символом, он используется для того, чтобы ключи в объекте не были строками или числами. Таким образом, они не будут конфликтовать, если вы добавите ключ с именем asyncIterator. Вы можете получить доступ к функции с помощью myIterator[Symbol.asyncIterator](). ↩

Заявление о выпуске Эта статья воспроизведена по адресу: https://dev.to/ianmacartney/streaming-http-responses-using-fetch-1fm2?1. Если обнаружено какое-либо нарушение прав, свяжитесь с [email protected], чтобы удалить ее.

Последний учебник Более>

Как эффективно вставить данные в несколько таблиц MySQL в одну транзакцию?
mysql вставьте в несколько таблиц , пытаясь вставить данные в несколько таблиц с одним запросом MySQL, может дать неожиданные результаты. Хотя ...

программирование Опубликовано в 2025-07-14
Как я могу поддерживать пользовательский рендеринг JTable Cell после редактирования ячейки?
поддержание рендеринга Jtable Cell после редактирования ячейки в jtable, реализация пользовательских элементов рендеринга ячейки и редактирова...

программирование Опубликовано в 2025-07-14
Eval () против AST.Literal_EVAL (): какая функция Python безопаснее для пользовательского ввода?
взвешивание eval () и ast.literal_eval () в Python Security при обращении с вводом пользователя, это необходимо определить определение безопас...

программирование Опубликовано в 2025-07-14
Множество
методы являются FNS, которые можно вызвать на Objects ] Массивы являются объектами, следовательно, они также имеют методы в JS. ] ] Срез (...

программирование Опубликовано в 2025-07-14
Как захватить и транслировать Stdout в режиме реального времени для выполнения команды Chatbot?
захватывание Stdout в режиме реального времени из выполнения команды В сфере разработки чат -ботов, способных выполнять команды, является общи...

программирование Опубликовано в 2025-07-14
Как правильно использовать как запросы с параметрами PDO?
Использование подобных запросов в PDO При попытке реализовать подобные запросы в PDO, вы можете столкнуться с проблемами, подобными тем, котор...

программирование Опубликовано в 2025-07-14
Почему мое фоновое изображение CSS появляется?
Устранение неисправностей: CSS Фоновое изображение не отображается Вы столкнулись с проблемой, где ваше фоновое изображение не загружается, не...

программирование Опубликовано в 2025-07-14
Могу ли я перенести свой шифрование с McRypt в OpenSSL и расшифровывает данные, заполненные McRypt, используя OpenSSL?
Обновление моей библиотеки шифрования с McRypt до OpenSSL Могу ли я обновить свою библиотеку шифрования с McRypt до OpenSSL? В OpenSSL можно л...

программирование Опубликовано в 2025-07-14
Как преодолеть ограничения переопределения функций PHP?
преодоление ограничений переосмысления функции PHP в PHP, определение функции с одним и тем же именем несколько раз-нет-нет. Попытка сделать э...

программирование Опубликовано в 2025-07-14
$\ "В то время как (1) против (;;): Оптимизация компилятора исключает различия в производительности? \"$
\ "В то время как (1) против (;;): Оптимизация компилятора исключает различия в производительности? \"
while (1) vs. for (;;;): существует ли разница в скорости? ] Вопрос: . Использование (1) вместо (;) петли? Компиляторы: ] perl: как (1)...

программирование Опубликовано в 2025-07-14
Почему выполнение JavaScript прекращается при использовании кнопки Firefox Back?
Проблема истории навигации: Javascript перестает выполнять после использования кнопки Firefox Back пользователи Firefox могут столкнуться с пр...

программирование Опубликовано в 2025-07-14
Разрешает ли Java несколько типов возврата: более пристальный взгляд на общие методы?
множественные типы возврата в Java: a miscessception presvelired в сфере программирования Java, может возникнуть признание метода, оставляя ра...

программирование Опубликовано в 2025-07-14
Как извлечь случайный элемент из массива в PHP?
случайный выбор из массива в php, получение случайного элемента из массива может быть выполнено с легкостью. Рассмотрим следующий массив: ] $ite...

программирование Опубликовано в 2025-07-14
Как создать плавную анимацию CSS в левом правом для Div в его контейнере?
generic css анимация для левого правого движения В этой статье мы рассмотрим создание общей анимации CSS, чтобы переместить дивирование влево ...

программирование Опубликовано в 2025-07-14
Как правильно отобразить текущую дату и время в формате «DD/MM/yyyy HH: MM: Ss.SS» в Java?
Как отобразить текущую дату и время в «dd/mm/yyyy hh: mm: ss.ss" format в предоставленном коде Java, выпуск с датой и временем в желании ...

программирование Опубликовано в 2025-07-14