가져오기를 사용하여 HTTP 응답 스트리밍

2024-07-31에 게시됨

검색:168

Streaming HTTP Responses using fetch

이 게시물에서는 HTTP 호출을 가져오고 스트리밍 응답을 청크로 수신할 수 있는 JavaScript Streams API 작업을 살펴보겠습니다. 이를 통해 클라이언트는 서버 응답에 더 많이 응답할 수 있습니다. 신속하게 ChatGPT와 같은 UI를 구축하세요.

동기 부여적인 예로, npm 종속성을 사용하지 않고 내장된 가져오기만 사용하여 OpenAI(또는 동일한 http 스트리밍 API를 사용하는 모든 서버)의 스트리밍 LLM 응답을 처리하는 기능을 구현하겠습니다. 여기에는 지수 백오프를 사용한 재시도, 임베딩, 비스트리밍 채팅, 채팅 완료 및 임베딩과 상호작용하기 위한 더 간단한 API가 포함된 전체 코드가 있습니다.

HTTP 스트림을 클라이언트에 반환하는 방법에 관심이 있다면 이 게시물을 확인하세요.

전체 예제 코드

전체 예시는 다음과 같습니다. 아래에서 각 부분을 살펴보겠습니다.

async function createChatCompletion(body: ChatCompletionCreateParams) {
  // Making the request
  const baseUrl = process.env.LLM_BASE_URL || "https://api.openai.com";
  const response = await fetch(baseUrl   "/v1/chat/completions", {
    method: "POST",
    headers: {
      "Content-Type": "application/json",
      "Authorization": "Bearer "   process.env.LLM_API_KEY,
    },
    body: JSON.stringify(body),
  });
  // Handling errors
  if (!response.ok) {
    const error = await response.text();
    throw new Error(`Failed (${response.status}): ${error}`,
  }
  if (!body.stream) { // the non-streaming case
    return response.json();
  }
  const stream = response.body;
  if (!stream) throw new Error("No body in response");
  // Returning an async iterator
  return {
    [Symbol.asyncIterator]: async function* () {
      for await (const data of splitStream(stream)) {
        // Handling the OpenAI HTTP streaming protocol
        if (data.startsWith("data:")) {
          const json = data.substring("data:".length).trimStart();
          if (json.startsWith("[DONE]")) {
            return;
          }
          yield JSON.parse(json);
        }
      }
    },
  };
}

// Reading the stream  
async function* splitStream(stream: ReadableStream) {
  const reader = stream.getReader();
  let lastFragment = "";
  try {
    while (true) {
      const { value, done } = await reader.read();
      if (done) {
        // Flush the last fragment now that we're done
        if (lastFragment !== "") {
          yield lastFragment;
        }
        break;
      }
      const data = new TextDecoder().decode(value);
      lastFragment  = data;
      const parts = lastFragment.split("\n\n");
      // Yield all except for the last part
      for (let i = 0; i 



재시도 및 기타 개선 사항과 함께 스트리밍 및 비스트리밍 매개변수 변형에 대한 멋진 형식의 오버로드가 있는 버전은 여기에서 코드를 참조하세요.

이 게시물의 나머지 부분은 이 코드의 기능을 이해하는 것입니다.


  
  
  요청하기


이 부분은 사실 매우 쉽습니다. 스트리밍 HTTP 응답은 일반 HTTP 요청에서 나옵니다.



const baseUrl = process.env.LLM_BASE_URL || "https://api.openai.com";
const response = await fetch(baseUrl   "/v1/chat/completions", {
  method: "POST",
  headers: {
    "Content-Type": "application/json",
    "Authorization": "Bearer "   process.env.LLM_API_KEY,
  },
  body: JSON.stringify(body),
});




HTTP 헤더는 평소대로 전송되며 스트리밍을 활성화하기 위해 특별히 아무것도 설정할 필요가 없습니다. 또한 HTTP 스트리밍에 일반 캐싱 헤더를 계속 활용할 수 있습니다.


  
  
  오류 처리


클라이언트 측의 오류에 관한 이야기는 HTTP 스트리밍의 경우 조금 안타깝습니다. 장점은 HTTP 스트리밍의 경우 클라이언트가 초기 응답에서 즉시 상태 코드를 받고 거기에서 오류를 감지할 수 있다는 것입니다. http 프로토콜의 단점은 서버가 성공을 반환했지만 스트림 중간에 중단된 경우 클라이언트에게 스트림이 중단되었음을 알려주는 프로토콜 수준의 어떤 것도 없다는 것입니다. OpenAI가 이 문제를 해결하기 위해 마지막에 "모두 완료" 센티넬을 인코딩하는 방법을 아래에서 살펴보겠습니다.



if (!response.ok) {
  const error = await response.text();
  throw new Error(`Failed (${response.status}): ${error}`,
}





  
  
  스트림 읽기


HTTP 스트리밍 응답을 읽기 위해 클라이언트는 .getReader() 메소드를 사용하여 서버에서 들어오는 청크를 반복할 수 있는 ReadableStream인 response.body 속성을 사용할 수 있습니다.¹



const reader = request.body.getReader();
try {
    while (true) {
      const { value, done } = await reader.read();
      if (done) break;
      const text = TextDecoder().decode(value);
      //... do something with the chunk
    }
} finally {
  reader.releaseLock();
}




이것은 우리가 반환하는 모든 데이터 비트를 처리하지만 OpenAI HTTP 프로토콜의 경우 데이터가 줄 바꿈으로 구분된 JSON일 것으로 예상하므로 대신 응답 본문을 분할하고 각 줄을 '생성'합니다. 다시 완료되었습니다. 진행 중인 줄을 lastFragment로 버퍼링하고 두 개의 줄 바꿈으로 구분된 전체 줄만 반환합니다:



// stream here is request.body
async function* splitStream(stream: ReadableStream) {
  const reader = stream.getReader();
  let lastFragment = "";
  try {
    while (true) {
      const { value, done } = await reader.read();
      if (done) {
        // Flush the last fragment now that we're done
        if (lastFragment !== "") {
          yield lastFragment;
        }
        break;
      }
      const data = new TextDecoder().decode(value);
      lastFragment  = data;
      const parts = lastFragment.split("\n\n");
      // Yield all except for the last part
      for (let i = 0; i 



이 함수*와 Yield 구문이 익숙하지 않은 경우 function*을 루프에서 여러 항목을 반환할 수 있는 함수로 취급하고 Yield를 함수에서 여러 번 반환하는 방법으로 취급하세요.

그런 다음 다음과 같이 이 SplitStream 함수를 반복할 수 있습니다.



for await (const data of splitStream(response.body)) {
  // data here is a full line of text. For OpenAI, it might look like
  // "data: {...some json object...}" or "data: [DONE]" at the end
}




이 "for wait" 구문이 문제가 된다면 이는 "비동기 반복자"를 사용하는 것입니다. 이는 for 루프와 함께 사용하는 일반 반복자와 같지만 다음 값을 얻을 때마다 대기됩니다. 

예를 들어 OpenAI에서 일부 텍스트를 얻었고 더 많은 것을 기다리고 있는 경우 for 루프는 SplitStream이 다른 값을 생성할 때까지 기다립니다. 이는 wait reader.read()가 완료되는 값을 반환할 때 발생합니다. 하나 이상의 텍스트 줄.

다음으로 호출자가 "for Wait" 루프를 사용하여 이 데이터를 반복할 수 있도록 분할Stream과 같은 함수가 아닌 비동기 반복자를 반환하는 또 다른 방법을 살펴보겠습니다.


  
  
  비동기 반복자 반환


이제 전체 텍스트 줄을 반환하는 비동기 반복자가 있으므로, 그냥 SplitStream(response.body)을 반환할 수 있지만, 함수 호출자가 계속 반복하도록 하면서 각 줄을 가로채서 변환하고 싶습니다. . 

이 접근 방식은 위의 async function* 구문과 유사합니다. 여기서는 호출 시 반환하는 비동기 함수 대신 비동기 반복자를 직접 반환합니다. 차이점은 먼저 호출해야 하는 AsyncGenerator 대신 AsyncIterator 유형이라는 것입니다. AsyncIterator는 다음과 같은 특정 이름의 함수를 사용하여 정의할 수 있습니다: Symbol.asyncIterator.²



      return {
        [Symbol.asyncIterator]: async function* () {
          for await (const data of splitStream(stream)) {
            //handle the data
            yield data;
          }
        },
      };




splitStream에서 오는 데이터와 다른 것을 반환하려는 경우에 유용합니다. 스트리밍 HTTP 요청에서 새 라인이 들어올 때마다, SplitStream은 이를 생성하고, 이 함수는 이를 데이터로 수신하고 호출자에게 전달하기 전에 작업을 수행할 수 있습니다. 

다음으로 OpenAI의 스트리밍 채팅 완료 API의 경우 이 데이터를 구체적으로 해석하는 방법을 살펴보겠습니다.


  
  
  OpenAI HTTP 스트리밍 프로토콜 처리


OpenAI 응답 프로토콜은 data: 또는 event:로 시작하는 일련의 줄이지만 채팅 완료에 유용한 부분이므로 데이터 응답만 처리하겠습니다. 스트림이 완료되면 [DONE]이라는 센티널이 있고, 그렇지 않으면 JSON일 뿐입니다.



for await (const data of splitStream(stream)) {
  if (data.startsWith("data:")) {
    const json = data.substring("data:".length).trimStart();
    if (json.startsWith("[DONE]")) {
      return;
    }
    yield JSON.parse(json);
  } else {
    console.debug("Unexpected data:", data);
  }
}





  
  
  모든 것을 하나로 모으기


이제 HTTP 스트리밍을 이해했으므로 SDK나 라이브러리에 의존하지 않고 스트리밍 API로 직접 작업하는 것에 자신감을 가질 수 있습니다. 이를 통해 여러 요청으로 더 많은 대역폭을 소비하지 않고도 UI가 즉시 업데이트를 시작할 수 있으므로 대기 시간을 숨길 수 있습니다. 공식 openai npm 패키지와 마찬가지로 위 기능을 사용할 수 있습니다:



  const response = await createChatCompletion({
    model: "llama3",
    messages: [...your messages...],
    stream: true,
  });
  for await (const chunk of response) {
    if (chunk.choices[0].delta?.content) {
      console.log(chunk.choices[0].delta.content);
    }
  }




모델을 사전 구성하고 .choices[0].delta.content:
를 추출하여 이를 더욱 쉽게 만들 수 있는 일부 유틸리티 기능을 만들 수 있는 코드를 여기에서 확인하세요.


const response = await chatStream(messages);
for await (const content of response) {
  console.log(content);
}




코드를 복사하기 전에 비동기 함수 연습으로 직접 구현해 보세요.


  
  
  더 많은 리소스



 자체 서버 엔드포인트에서 HTTP 스트리밍 데이터를 반환하는 방법에 대한 자세한 내용은 OpenAI(또는 이와 유사한 것)에서 서버로 데이터를 스트리밍하고 동시에 클라이언트로 스트리밍하는 HTTP 스트리밍을 사용한 AI Chat의 이 게시물을 확인하세요. 사용자 정의 로직이 진행됩니다(예: 데이터베이스에 청크 저장).
MDN 문서는 언제나 그렇듯 훌륭합니다. 위의 링크 외에도 읽기 가능한 스트림을  태그에 연결하여 이미지 요청을 스트리밍하는 방법을 보여주는 읽기 가능한 스트림 API에 대한 가이드가 있습니다. 참고: 이 가이드에서는 response.body를 비동기 반복자로 사용하지만 현재는 널리 구현되지 않았으며 TypeScript 유형에도 없습니다.








참고: 한 번에 하나의 스트림 리더만 가질 수 있으므로 일반적으로 .getReader()를 여러 번 호출하지 않습니다. 이 경우 아마도 .tee()를 원할 것이고 . 어떤 이유로든 getReader()를 여러 번 수행하는 경우 첫 번째 .releaseLock()이 먼저 있는지 확인하세요. ↩



또는 기호에 익숙하지 않은 경우 문자열이나 숫자가 아닌 객체에 키를 갖는 방식으로 사용됩니다. 이렇게 하면 asyncIterator라는 키를 추가해도 충돌하지 않습니다. myIterator[Symbol.asyncIterator]()를 사용하여 함수에 액세스할 수 있습니다. ↩

릴리스 선언문 이 글은 https://dev.to/ianmacartney/streaming-http-responses-using-fetch-1fm2?1에서 복제됩니다. 침해 내용이 있는 경우, [email protected]으로 연락하여 삭제하시기 바랍니다.

최신 튜토리얼 더>

Visual Studio 2012의 DataSource 대화 상자에 MySQL 데이터베이스를 추가하는 방법은 무엇입니까?
MySQL 커넥터 v.6.5.4가 설치되어 있지만 Entity 프레임 워크의 DataSource 대화 상자에 MySQL 데이터베이스를 추가 할 수 없습니다. 이를 해결하기 위해 MySQL 용 공식 Visual Studio 2012 통합은 MySQL 커넥터 v.6....

프로그램 작성 2025-03-25에 게시되었습니다
SQL에서 기둥과 행을 효율적으로 전환하는 방법은 무엇입니까?
SQL 순위와 열을 쉽게 변환하는 쉬운 방법 ] SQL의 피벗 함수는 Row-and-Column 변환에 적합한 것처럼 보이지만 복잡성은 엄청나게 될 수 있습니다. 더 쉬운 방법으로 이것을 달성하려면 다음과 같은 대안을 고려하십시오. Union All,...

프로그램 작성 2025-03-25에 게시되었습니다
PHP 배열 키-값 이상 : 07 및 08의 호기심 사례 이해
이 문제는 PHP의 주요 제로 해석에서 비롯됩니다. 숫자가 0 (예 : 07 또는 08)으로 접두사를 넣으면 PHP는 소수점 값이 아닌 옥탈 값 (기본 8)으로 해석합니다. 설명 : echo 07; // 인쇄 7 (10 월 07 = 10 진수 7) ...

프로그램 작성 2025-03-25에 게시되었습니다
PHP를 사용하여 Blob (이미지)을 MySQL에 올바르게 삽입하는 방법은 무엇입니까?
문제 $ sql = "삽입 ImagesTore (imageId, image) 값 ( '$ this- & gt; image_id', 'file_get_contents ($ tmp_image)'; 결과적으로 실제 이...

프로그램 작성 2025-03-25에 게시되었습니다
Firefox Back 버튼을 사용할 때 JavaScript 실행이 중단되는 이유는 무엇입니까?
원인 및 솔루션 : 이 동작은 브라우저 캐싱 자바 스크립트 리소스에 의해 발생합니다. 이 문제를 해결하고 후속 페이지 방문에서 스크립트가 실행되도록하기 위해 Firefox 사용자는 Window.onload 이벤트에서 호출되도록 빈 기능을 설정해야합니다. ...

프로그램 작성 2025-03-25에 게시되었습니다
컴파일러가 C ++에서 '새로운'호출을 최적화 할 수 있습니까?
컴파일러 동작 연구를 사용하여 만든 힙 메모리 할당을 제거 할 수 있습니까? 다른 컴파일러가 힙 할당을 다르게 처리 함을 나타냅니다. ) 전체 최적화 플래그에서도 새 통화를 최적화합니다. 최적화의 유효성 컴파일러 최적화의 대상은 토론...

프로그램 작성 2025-03-25에 게시되었습니다
Object-Fit : IE 및 Edge에서 표지가 실패, 수정 방법?
이 문제를 해결하기 위해 문제를 해결하는 영리한 CSS 솔루션을 사용합니다. -50%); 높이 : 100%; 너비 : 자동; // 수직 블록의 경우 높이 : 자동; 너비 : 100%; // 수평 블록의 경우 이 조합은 절대 포지셔닝을 사용하여 중앙에서 ...

프로그램 작성 2025-03-25에 게시되었습니다
자바 스크립트 객체의 키를 알파벳순으로 정렬하는 방법은 무엇입니까?
object.keys (...) . .sort () . 정렬 된 속성을 보유 할 새 개체를 만듭니다. 정렬 된 키 어레이를 반복하고 리소셔 함수를 사용하여 원래 객체에서 새 객체에 해당 값과 함께 각 키를 추가합니다. 다음 코드는 프로세...

프로그램 작성 2025-03-25에 게시되었습니다
인용하거나 인용하지 말아야 할 : 글꼴 가족 이름은 언제 CSS의 인용문으로 둘러싸여야합니까?
문체 딜레마 해결 : 글꼴 가족 이름이 CSS의 인용문으로 둘러싸여 있어야합니까? 이 질문은 현대식 브라우저에 의해 도전 한 오랜 "모범 사례"에서 비롯되었습니다. 이 컨벤션의 기술과 논리를 탐구합시다. 기술적 기반 ...

프로그램 작성 2025-03-25에 게시되었습니다
버전 5.6.5 이전에 MySQL의 Timestamp 열을 사용하여 current_timestamp를 사용하는 데 제한 사항은 무엇입니까?
5.6.5 이전에 mysql 버전의 기본적으로 또는 업데이트 클로즈가있는 타임 스탬프 열의 제한 사항 5.6.5 5.6.5 이전에 mySQL 버전에서 Timestamp Holumn에 전적으로 기본적으로 한 제한 사항이 있었는데, 이는 제한적으로 전혀 ...

프로그램 작성 2025-03-25에 게시되었습니다
간단한 C# 프록시 릴레이 웹 컨텐츠를 효율적으로 어떻게 효율적으로 할 수 있습니까?
기본 C# HTTP 프록시 구축 프록시는 클라이언트 (웹 브라우저와 같은)와 대상 서버 간의 중개자 역할을합니다. 이 기사는 C# 프록시가 웹 컨텐츠를 효율적으로 전달하는 방법을 살펴 봅니다. 프록시의 역할 클라이언트는 요청을 지정된 프록시 ...

프로그램 작성 2025-03-25에 게시되었습니다
동적 인 크기의 부모 요소 내에서 요소의 스크롤 범위를 제한하는 방법은 무엇입니까?
문제 : 고정 된 사이드 바로 조정을 유지하면서 사용자의 수직 스크롤과 함께 이동하는 스크롤 가능한 맵 디브가있는 레이아웃을 고려합니다. 그러나 맵의 스크롤은 뷰포트의 높이를 초과하여 사용자가 페이지 바닥 글에 액세스하는 것을 방지합니다. ...

프로그램 작성 2025-03-25에 게시되었습니다
McRypt에서 OpenSSL로 암호화를 마이그레이션하고 OpenSSL을 사용하여 McRypt 암호화 데이터를 해제 할 수 있습니까?
질문 : McRypt에서 OpenSSL로 내 암호화 라이브러리를 업그레이드 할 수 있습니까? 그렇다면 어떻게? 대답 : 대답 : 예, McRypt에서 암호화 라이브러리를 OpenSSL로 업그레이드 할 수 있습니다. OpenSSL을 사용하여 McRyp...

프로그램 작성 2025-03-25에 게시되었습니다
`JSON '패키지를 사용하여 이동하는 JSON 어레이를 구문 분석하는 방법은 무엇입니까?
JSON 어레이를 Parsing JSON 패키지 문제 : JSON 패키지를 사용하여 어레이를 나타내는 JSON 스트링을 어떻게 구문 분석 할 수 있습니까? 예 : type JsonType struct { Array []string ...

프로그램 작성 2025-03-25에 게시되었습니다
교체 지시문을 사용하여 GO MOD에서 모듈 경로 불일치를 해결하는 방법은 무엇입니까?
[ github.com/coreos/coreos/client github.com/coreos/etcd/client.test imports github.com/coreos/etcd/integration에 의해 테스트 된 Echoed 메시지에 의해 입증 된 바와...

프로그램 작성 2025-03-25에 게시되었습니다