Dify API로 실시간 음성을 구현하는 방법

첫 장 > 프로그램 작성 > Dify API로 실시간 음성을 구현하는 방법

Dify API로 실시간 음성을 구현하는 방법

2024-11-01에 게시됨

검색:349

Dify는 온라인으로 LLM 워크플로를 구축하기 위한 오픈 소스 SaaS 플랫폼입니다. 저는 API를 사용하여 앱에서 대화형 AI 경험을 만들고 있습니다. API 응답으로 TTS 스트림을 가져와서 재생하는 데 어려움을 겪고 있었습니다. 여기서는 오디오 스트림을 처리하고 올바르게 재생하는 방법을 보여줍니다.

문자 채팅에 API 엔드포인트 https://api.dify.ai/v1/chat-messages를 사용하고 있습니다. Dify 앱에서 텍스트 음성 변환 기능을 활성화한 경우 텍스트 응답과 동일한 스트림으로 오디오 데이터를 반환합니다.

기능 추가 버튼을 누르고 말하기 기능에 텍스트를 추가하세요.
How to realize Real-Time Speech with Dify API

다음 컬 명령어를 사용하여 API의 응답을 확인할 수 있습니다.

curl -X POST 'https://api.dify.ai/v1/chat-messages' \
--header 'Authorization: Bearer YOUR_API_KEY' \
--header 'Content-Type: application/json' \
--data-raw '{
    "inputs": {},
    "query": "What are the specs of the iPhone 13 Pro Max?",
    "response_mode": "streaming",
    "conversation_id": "",
    "user": "abc-123",
    "files": []
}'

TypeScript/JavaScript로 시연했지만 프로그래밍 언어에도 동일한 논리를 적용할 수 있습니다.

스트리밍 데이터 분석

먼저 Dify가 스트림을 위해 어떤 데이터를 사용하는지 알아보겠습니다.

스트리밍된 데이터 형식

Dify는 다음과 같은 텍스트 데이터 형식을 사용하고 있습니다. JSON 라인과 비슷하지만 완전히 똑같지는 않습니다.

data: {"event": "workflow_started", "conversation_id": "065fb118-35d4-4524-a067-a70338ece575", "message_id": "3f0fe3cf-5aa1-4f7c-8abe-2505bf07ae8f", "created_at": 1724478014, "task_id": "dacb2d5c-a6f5-44b5-b5a6-de000f24aeba", "workflow_run_id": "50100b30-e458-4632-ad7d-8dd383823376", "data": {"id": "50100b30-e458-4632-ad7d-8dd383823376", "workflow_id": "debdb4fa-dcab-4233-9413-fd6d17b9e36a", "sequence_number": 334, "inputs": {"sys.query": "What are the specs of the iPhone 13 Pro Max?", "sys.files": [], "sys.conversation_id": "065fb118-35d4-4524-a067-a70338ece575", "sys.user_id": "abc-123"}, "created_at": 1724478014}}

data: {"event": "node_started", "conversation_id": "065fb118-35d4-4524-a067-a70338ece575", "message_id": "3f0fe3cf-5aa1-4f7c-8abe-2505bf07ae8f", "created_at": 1724478014, "task_id": "dacb2d5c-a6f5-44b5-b5a6-de000f24aeba", "workflow_run_id": "50100b30-e458-4632-ad7d-8dd383823376", "data": {"id": "bf912f43-29dd-4ee2-aefa-0fabdf379257", "node_id": "1721365917005", "node_type": "start", "title": "\u958b\u59cb", "index": 1, "predecessor_node_id": null, "inputs": null, "created_at": 1724478013, "extras": {}}}

data: {"event": "node_finished", "conversation_id": "065fb118-35d4-4524-a067-a70338ece575", "message_id": "3f0fe3cf-5aa1-4f7c-8abe-2505bf07ae8f", "created_at": 1724478014, "task_id": "dacb2d5c-a6f5-44b5-b5a6-de000f24aeba", "workflow_run_id": "50100b30-e458-4632-ad7d-8dd383823376", "data": {"id": "bf912f43-29dd-4ee2-aefa-0fabdf379257", "node_id": "1721365917005", "node_type": "start", "title": "\u958b\u59cb", "index": 1, "predecessor_node_id": null, "inputs": {"sys.query": "What are the specs of the iPhone 13 Pro Max?", "sys.files": [], "sys.conversation_id": "065fb118-35d4-4524-a067-a70338ece575", "sys.user_id": "abc-123", "sys.dialogue_count": 1}, "process_data": null, "outputs": {"sys.query": "What are the specs of the iPhone 13 Pro Max?", "sys.files": [], "sys.conversation_id": "065fb118-35d4-4524-a067-a70338ece575", "sys.user_id": "abc-123", "sys.dialogue_count": 1}, "status": "succeeded", "error": null, "elapsed_time": 0.001423838548362255, "execution_metadata": null, "created_at": 1724478013, "finished_at": 1724478013, "files": []}}

data: {"event": "node_started", "conversation_id": "065fb118-35d4-4524-a067-a70338ece575", "message_id": "3f0fe3cf-5aa1-4f7c-8abe-2505bf07ae8f", "created_at": 1724478014, "task_id": "dacb2d5c-a6f5-44b5-b5a6-de000f24aeba", "workflow_run_id": "50100b30-e458-4632-ad7d-8dd383823376", "data": {"id": "89ed58ab-6157-499b-81b2-92b1336969a5", "node_id": "llm", "node_type": "llm", "title": "LLM", "index": 2, "predecessor_node_id": "1721365917005", "inputs": null, "created_at": 1724478013, "extras": {}}}

...

응답으로 Dify는 텍스트 답변과 오디오 데이터를 푸시합니다.

텍스트 답변 예시

data: {"event": "message", "conversation_id": "aa13eb24-e90a-4c5d-a36b-756f0e3be8f8", "message_id": "5be739a9-09ba-4444-9905-a2f37f8c7a21", "created_at": 1724301648, "task_id": "0643f770-e9d3-408f-b771-bb2e9430b4f9", "id": "5be739a9-09ba-4444-9905-a2f37f8c7a21", "answer": "MP"}

오디오 데이터의 예시 라인

data: {"event": "tts_message", "conversation_id": "aa13eb24-e90a-4c5d-a36b-756f0e3be8f8", "message_id": "5be739a9-09ba-4444-9905-a2f37f8c7a21", "created_at": 1724301648, "task_id": "0643f770-e9d3-408f-b771-bb2e9430b4f9", "audio": "//PkxABhvDm0DVp4ACUUfvWc1CFlh0tR9Oh7LxzHRsGBuGx155x3JqTJiwKKZf8wIcxpMzJU0h4zhgyQwwwIsgWQMAALQMkanBTjfCPgZwFsDOGGIYJoJoJoJoPQPQLYEgAOwM4SMXMW8TcNWGrEPEME0HoIQTg0DQNA0C5k7IOLeJuDnDVi5nWyJwgghAagQwTQQgJAGrDVibiFhqw1YR8HOEjBUA5AcgagQwTQTQQgJAAtgLYKsQ8hZc0PV7OrE4SgQgFIAsAQAwA6H0Uv4t4m4m49Yt4uYOQHIBkAyAqAkAuB0Mm6UeKxDGRrIODkByBqBNBCA1ARwHIEgBVg5wkY41W2GgdEVDFBNe HicQw0ydk7HrHrIWXM62d48ePNfCkNATcTcNWGrCRhqxDxcwMYBwBkByCGC4EILgoJTQUDeW8W8TcTchZ1qBWIYchOBbBCA1AhgSMJGGrFzLmh6fL LeBkAyAZAcgSAXAhB0Kxnj4YDkJwXA6FAzwj8IIJoJoPQXA6EPOcg4R8FOBnCRljRAwlwoh4EUwLhFTCVA MR0R8wyxOhgAwwDgJjBUABMM0hMxBgnTPtMrMBEEcwJQCzIXIdMZMG821DmjDKHJAwLDKHRMQsJkwbwVRoFs//PkxEx5dDnwAZ7wANHgEUFJHGCUCQp3LWCQQYGAATI5QzwHBJF4UFktpfATT2l0goAGNADLOU64HAMCQCK50szABAIkDS2/j8gl6l6Di7QgBEiAfMEADBnyZBgeAWCMK4xvBbhoRZj1M ktsNMTrMNcHEwHQEzAjAHMGQAQwRQZTBHALMGMDkzhh2jGhLtMgsMMwfhOzCnGLMMcKgwOw8pqHMoGtvdDzos0AIAiXIsBAmGsRFtYcBABmB0AUYjQfhhDAfjoCrETAGArMOAJ4iAAMCMFkwXwh5fffuhpYMhyP2bl3MVAJQrSYQDsna7G2 fx/GvyAwUQbTAdAFCAHVKyIAduTXHZZXDjNS57/VeVJ5 JBJ 0kATkCSells8/NBt/2/5Dj1s chDBYSINutNS9FQwDwBWHjgASKRgAAJOyYC4Ao0CMNAKBgB6KK1hYBkAAHROM9mLsknb8avTcB0MerV6jl7llE70egOerRh9WcP/FoHqtVsO/In2f G2tsdnH L/KSSvBQB4OATam27Yi4jiBgBFOpq15bTQU6k1G4LoWo1mMAwDQwlBEzEnKsMkA7c5JYuTOzK2MvAbEysSPTM dOOn1XEzGgIzXzmPODVvs1cyNTJxQ9MsAWwy//PkxDlz7DIMAd7gAek5EwnjcjX9QVN1N0czFyijQKOmMi4IYw8RvzFvCHMHYBQwdQlTRxVNvm8ycGjLYlMTAQ=="}

이벤트 속성을 확인하면 오디오 데이터의 JSON 라인을 구분할 수 있습니다. 오디오 JSON의 값은 tts_message입니다. 오디오 mp3 바이너리는 JSON의 audio 속성에 base64 형식으로 저장됩니다.

데이터 처리 문제

TTS 오디오를 실시간으로 재생할 때 발생하는 첫 번째 문제는 JSON 라인이 패킷으로 분할되어 있으며 각 패킷은 그대로 유효한 JSON 데이터가 아니라는 것입니다.

가운데가 잘린 패킷 예

euimRrhsPMZiMAl BqSZMDmIkQEcDb/8 TEtHm8MhwA3p/p8dA0CCpAxwMMPABoYMIWwUDG6BRmiYZg2G6gRidGanOm5i5iaIYmfkH8Z/FmEopqJGZKXihYEIRxCKYKtlQuMvPjPQIwUVFFECDRnRCYEimGmA6cji41yQMImMEmhaHrVKpCxo2OYx6Q5RcJKAKkah4X6MckHEqdwKgHGHltDUjCy46HMgTCpwodAM8KijREwSSEk5hB4gRGFfC0ouYoeDiYtNREDgKQsTT6EI4egmMMBxpQZmoUJmAAg6YPDmQISgSECAZQOLfAUEQAG/dgxAVkxfFHGorEHB4CS Yugwk2gq8akIwMsZIuIzUSrCAGm1iBnoYA8lcoYSlaIJ5RjCblwbsh8sB3skA7Gcx3zmSOKnXNJO6ObKklhuYjlVL1dSMhgwVJtFzMeWFufNKy3ODmCExBTUUzLjEwMKqqqqqqqqqqqqqqqqqqCIEWFIAA4DAWKkMDDIBA4lBqGDdmZwzAkGJFoYiwEV0IQOQHg1AATJiUM6F0z2fDE6PMvlc6DhTMJ MNH4xWwzBwKMMCgHAwwUFQwjGEgMgovgIBMIMECYxYSDKAwSoMOBC4Ez682pEZIB8kBuiawZEaSnFAjIEwSFRxGUJIXMGRMmfNCPApcKL/8 TEiVdEKlJm5pM9gz0MyScwo04BgqjEFh489MGKVw=="}

패킷은 JSON 라인의 중간에서 시작됩니다. 유효한 JSON 라인을 얻으려면 여러 패킷을 결합해야 합니다.

두 번째 문제는 JSON의 오디오 데이터 청크가 유효한 오디오 데이터가 아니라는 것입니다. mp3 프레임 중간에 데이터가 잘립니다.

구현

JSON과 mp3의 분할 데이터를 처리하려면 현명한 방법을 사용해야 합니다. 프로세스 흐름은 다음과 같습니다.

How to realize Real-Time Speech with Dify API

먼저 유효한 JSON 데이터를 가져와 패킷을 수신하는 동안 JSON으로 분할해야 합니다. 끝에 \n이 있는 패킷을 얻었을 때 지금까지 수신된 패킷의 연결이 중간에 잘리지 않았다고 말할 수 있습니다. 의사 코드는 다음과 같습니다.

let packets = []
stream.on('data', (bytes) => {
   const text = bytes.toString()
   packets.push(text)
   if (text.endsWith('\n')) {
      // Extract audio data from the packets.
      const audioChunks = extractAudioChunks(packets.join(''))
      // Clear the packet array
      packets = []
   }
})

둘째, 오디오 청크를 mp3 프레임으로 분할해야 합니다. 오디오 청크를 바이너리로 연결하고 그 안에 있는 각 mp3 프레임을 찾습니다.

const mp3Frames = []
const binaryToProcess = Buffer.concat([...audioChunks])
let frameStartIndex = 0
for (let i = 0; i 



MP3 프레임 분할이 완전히 구현된 것은 아닙니다. 실제 프로세스에서는 오디오 바이너리에서 mp3 프레임을 추출할 때 나머지 바이트가 있고 나머지를 다음 반복에서 오디오 바이트의 시작으로 사용하는 경우를 고려해야 합니다. 전체 구현을 보려면 내 Github 저장소를 확인하세요.

릴리스 선언문 이 글은 https://dev.to/ku6ryo/how-to-realize-real-time-speech-with-dify-api-4ii1?1에서 복제됩니다. 침해 내용이 있는 경우, [email protected]으로 문의해 주십시오. 그것을 삭제하려면

최신 튜토리얼 더>

Firebase를 Laravel과 통합하는 방법
Laravel and Firebase are two powerful tools that can significantly enhance the development of modern web applications. Laravel, a popular PHP framewor...

프로그램 작성 2024-11-07에 게시됨
Redux 툴킷, 파일 시스템 및 Redux Persist를 사용한 엑스포: 종합 가이드
Redux Toolkit은 일련의 유틸리티와 규칙을 제공하여 Redux 개발을 단순화하는 인기 있는 라이브러리입니다. 여기에는 Redux 로직 작성 프로세스를 간소화하는 리듀서 및 액션 생성 패턴이 포함되어 있습니다. Redux Persist와 Redux Toolkit...

프로그램 작성 2024-11-07에 게시됨
중첩되지 않은 Lambda 클로저에서 변수 범위 문제를 처리하는 방법은 무엇입니까?
Python Lambda 클로저 범위 지정문제함수 서명에서 변수를 제거하기 위해 클로저 내에 변수를 캡슐화하는 것은 효율적인 코드 구조화에 자주 사용되는 기술입니다. 그러나 중첩되지 않은 람다의 경우 클로저는 변수의 최종 값을 유지하므로 반복 변수를 기반으로 특정 값에...

프로그램 작성 2024-11-07에 게시됨
최신 CSS를 사용하여 버튼을 입력 필드에 원활하게 통합하는 방법은 무엇입니까?
최신 CSS를 사용하여 버튼을 입력에 통합하는 방법문제:시각적 요소 만들기 버튼이 입력 필드 내에 원활하게 통합되어 일반적인 사용자 상호 작용이 가능하고 텍스트 가시성이 유지되며 접근성 및 화면 판독기 호환성이 유지됩니다.해결책: Flexbox 및 양식 테두리최적의 접...

프로그램 작성 2024-11-07에 게시됨
커널 개발의 C++: 종합 안내서
소개 커널 개발은 직접적인 하드웨어 액세스와 최소한의 런타임 오버헤드로 인해 전통적으로 C의 영역입니다. 그러나 C는 객체 지향 기능으로 인해 커널 프로그래밍에서 틈새 시장을 찾았으며, 이는 더 깔끔하고 유지 관리하기 쉬운 코드로 이어질 수 있습니다. ...

프로그램 작성 2024-11-07에 게시됨
React 프로젝트에서 CSS 모듈 구현
React의 CSS 모듈은 고유한 클래스 이름을 자동으로 생성하여 CSS 범위를 지정하는 방법입니다. 이는 대규모 애플리케이션에서 클래스 이름 충돌을 방지하고 모듈식 스타일을 허용합니다. React 프로젝트에서 CSS 모듈을 사용하는 방법은 다음과 같습니다. ...

프로그램 작성 2024-11-07에 게시됨
Comet 패턴을 구현하는 데 어떤 리소스를 사용할 수 있나요?
Comet: 서버 푸시의 패턴서버와 웹 클라이언트 간의 양방향 통신을 가능하게 하는 기술인 서버 푸시가 크게 발전했습니다. 최근 관심. Comet 디자인 패턴은 JavaScript 애플리케이션에서 서버 푸시를 구현하기 위한 유망한 접근 방식으로 등장합니다. 이 질문은 ...

프로그램 작성 2024-11-07에 게시됨
정신 건강 웰빙을 위한 외래 환자 프로그램 유형 탐색
외래 정신건강 치료 접근법은 하룻밤 동안 의료 시설에 입원해야 한다는 점을 강조하지 않는 일종의 프로그램입니다. 이 치료법은 주로 진료실, 병원, 진료소에서 제공되며 정기적인 치료 세션부터 고도로 구조화된 정규 치료까지 받을 수 있습니다. COVID-19 팬데믹 당시 ...

프로그램 작성 2024-11-07에 게시됨
C++ Builder에서 OpenGL 프레임을 초기화하는 방법: 단계별 가이드
C Builder에서 OpenGL 프레임을 초기화하는 방법C Builder의 양식 내에서 OpenGL 프레임을 초기화하는 것은 어려운 작업일 수 있습니다. 질문에 제공된 샘플과 같이 기존 OpenGL 코드를 적용하려고 할 때 어려움이 발생할 수 있습니다.OpenGL 프...

프로그램 작성 2024-11-07에 게시됨
이러한 희귀한 HTML 속성으로 웹 개발 기술을 향상시키세요
Introduction HTML attributes are most often referred to as the overlooked heroes of web development, playing a crucial role in shaping the st...

프로그램 작성 2024-11-07에 게시됨
Python에서 문자열을 바이너리로 변환하는 방법: ASCII와 유니코드?
Python에서 문자열을 이진수로 변환Python에서는 문자열을 일련의 이진수로 표현해야 할 수도 있습니다. 이는 데이터 암호화 또는 바이너리 파일 조작과 같은 다양한 이유로 유용할 수 있습니다.bin() 함수 사용문자열을 바이너리로 변환하는 가장 쉬운 방법 bin()...

프로그램 작성 2024-11-07에 게시됨
Java의 익명 내부 클래스에서 외부 인스턴스 변수에 액세스할 때 외부 인스턴스 변수가 최종 변수여야 하는 이유는 무엇입니까?
Java 내부 클래스: "최종" 외부 인스턴스 변수가 필수인 이유Java에서 익명 내부 클래스를 정의할 때 다음과 같은 문제가 발생할 수 있습니다. 외부 인스턴스 변수를 "최종"으로 표시해야 합니다. 이 기사에서는 이 제약 조건 뒤에...

프로그램 작성 2024-11-07에 게시됨
Python의 키워드 인수 이해
When you're programming in Python, knowing how to pass arguments to functions is key for writing clear, flexible, and easy-to-maintain code. One powe...

프로그램 작성 2024-11-07에 게시됨
인쇄할 때 DIV가 여러 페이지에 걸쳐 분할되는 것을 방지하는 방법은 무엇입니까?
인쇄 문제: 페이지 간 DIV 분기 방지동적 DIV가 페이지 간에 절반으로 잘리는 인쇄 딜레마에 직면하셨나요? 이 문제는 가변 높이의 수많은 DIV 요소가 포함된 긴 문서를 인쇄하려고 할 때 발생합니다.CSS 구조 솔루션이 문제를 해결하려면 CSS 속성 break- 내...

프로그램 작성 2024-11-07에 게시됨
Python은 강력한 형식의 언어인가요?
Python은 강력한 유형의 언어인가요?Python의 강력한 유형 지정 개념은 언어에서 변수 변경을 허용하므로 혼란을 불러일으켰습니다. 실행 중 해당 유형. 그러나 Python은 동적이지만 실제로는 강력한 유형입니다.Python의 강력한 유형강한 유형 지정은 값이 명시...

프로그램 작성 2024-11-07에 게시됨