」工欲善其事,必先利其器。「—孔子《論語.錄靈公》
首頁 > 程式設計 > 如何使用Dify API實現即時語音

如何使用Dify API實現即時語音

發佈於2024-11-01
瀏覽:358

Dify 是一个开源 SaaS 平台,用于在线构建 LLM 工作流程。我正在使用 API 在我的应用程序上创建对话式 AI 体验。我一直在努力获取 TTS 流作为 API 响应并播放它。这里我演示如何处理音频流并正确播放。

我正在使用 API 端点 https://api.dify.ai/v1/chat-messages 进行文本聊天。如果我们在 Dify 应用程序中启用“文本转语音”功能,它会在与文本响应相同的流中返回音频数据。

按“添加功能”按钮并添加“文本到语音”功能。
How to realize Real-Time Speech with Dify API

您可以使用以下curl命令检查API的响应。

curl -X POST 'https://api.dify.ai/v1/chat-messages' \
--header 'Authorization: Bearer YOUR_API_KEY' \
--header 'Content-Type: application/json' \
--data-raw '{
    "inputs": {},
    "query": "What are the specs of the iPhone 13 Pro Max?",
    "response_mode": "streaming",
    "conversation_id": "",
    "user": "abc-123",
    "files": []
}'

我用 TypeScript / JavaScript 进行演示,但您可以将相同的逻辑应用于您的编程语言。

流数据剖析

首先,让我们了解 Dify 在流中使用什么类型的数据。

流数据格式

Dify 使用以下文本数据格式。它类似于 JSON 行,但并不完全相同。

data: {"event": "workflow_started", "conversation_id": "065fb118-35d4-4524-a067-a70338ece575", "message_id": "3f0fe3cf-5aa1-4f7c-8abe-2505bf07ae8f", "created_at": 1724478014, "task_id": "dacb2d5c-a6f5-44b5-b5a6-de000f24aeba", "workflow_run_id": "50100b30-e458-4632-ad7d-8dd383823376", "data": {"id": "50100b30-e458-4632-ad7d-8dd383823376", "workflow_id": "debdb4fa-dcab-4233-9413-fd6d17b9e36a", "sequence_number": 334, "inputs": {"sys.query": "What are the specs of the iPhone 13 Pro Max?", "sys.files": [], "sys.conversation_id": "065fb118-35d4-4524-a067-a70338ece575", "sys.user_id": "abc-123"}, "created_at": 1724478014}}

data: {"event": "node_started", "conversation_id": "065fb118-35d4-4524-a067-a70338ece575", "message_id": "3f0fe3cf-5aa1-4f7c-8abe-2505bf07ae8f", "created_at": 1724478014, "task_id": "dacb2d5c-a6f5-44b5-b5a6-de000f24aeba", "workflow_run_id": "50100b30-e458-4632-ad7d-8dd383823376", "data": {"id": "bf912f43-29dd-4ee2-aefa-0fabdf379257", "node_id": "1721365917005", "node_type": "start", "title": "\u958b\u59cb", "index": 1, "predecessor_node_id": null, "inputs": null, "created_at": 1724478013, "extras": {}}}

data: {"event": "node_finished", "conversation_id": "065fb118-35d4-4524-a067-a70338ece575", "message_id": "3f0fe3cf-5aa1-4f7c-8abe-2505bf07ae8f", "created_at": 1724478014, "task_id": "dacb2d5c-a6f5-44b5-b5a6-de000f24aeba", "workflow_run_id": "50100b30-e458-4632-ad7d-8dd383823376", "data": {"id": "bf912f43-29dd-4ee2-aefa-0fabdf379257", "node_id": "1721365917005", "node_type": "start", "title": "\u958b\u59cb", "index": 1, "predecessor_node_id": null, "inputs": {"sys.query": "What are the specs of the iPhone 13 Pro Max?", "sys.files": [], "sys.conversation_id": "065fb118-35d4-4524-a067-a70338ece575", "sys.user_id": "abc-123", "sys.dialogue_count": 1}, "process_data": null, "outputs": {"sys.query": "What are the specs of the iPhone 13 Pro Max?", "sys.files": [], "sys.conversation_id": "065fb118-35d4-4524-a067-a70338ece575", "sys.user_id": "abc-123", "sys.dialogue_count": 1}, "status": "succeeded", "error": null, "elapsed_time": 0.001423838548362255, "execution_metadata": null, "created_at": 1724478013, "finished_at": 1724478013, "files": []}}

data: {"event": "node_started", "conversation_id": "065fb118-35d4-4524-a067-a70338ece575", "message_id": "3f0fe3cf-5aa1-4f7c-8abe-2505bf07ae8f", "created_at": 1724478014, "task_id": "dacb2d5c-a6f5-44b5-b5a6-de000f24aeba", "workflow_run_id": "50100b30-e458-4632-ad7d-8dd383823376", "data": {"id": "89ed58ab-6157-499b-81b2-92b1336969a5", "node_id": "llm", "node_type": "llm", "title": "LLM", "index": 2, "predecessor_node_id": "1721365917005", "inputs": null, "created_at": 1724478013, "extras": {}}}

...

在响应中,Dify 推送文本应答和音频数据。

文本答案行示例

data: {"event": "message", "conversation_id": "aa13eb24-e90a-4c5d-a36b-756f0e3be8f8", "message_id": "5be739a9-09ba-4444-9905-a2f37f8c7a21", "created_at": 1724301648, "task_id": "0643f770-e9d3-408f-b771-bb2e9430b4f9", "id": "5be739a9-09ba-4444-9905-a2f37f8c7a21", "answer": "MP"}

音频数据示例行

data: {"event": "tts_message", "conversation_id": "aa13eb24-e90a-4c5d-a36b-756f0e3be8f8", "message_id": "5be739a9-09ba-4444-9905-a2f37f8c7a21", "created_at": 1724301648, "task_id": "0643f770-e9d3-408f-b771-bb2e9430b4f9", "audio": "//PkxABhvDm0DVp4ACUUfvWc1CFlh0tR9Oh7LxzHRsGBuGx155x3JqTJiwKKZf8wIcxpMzJU0h4zhgyQwwwIsgWQMAALQMkanBTjfCPgZwFsDOGGIYJoJoJoJoPQPQLYEgAOwM4SMXMW8TcNWGrEPEME0HoIQTg0DQNA0C5k7IOLeJuDnDVi5nWyJwgghAagQwTQQgJAGrDVibiFhqw1YR8HOEjBUA5AcgagQwTQTQQgJAAtgLYKsQ8hZc0PV7OrE4SgQgFIAsAQAwA6H0Uv4t4m4m49Yt4uYOQHIBkAyAqAkAuB0Mm6UeKxDGRrIODkByBqBNBCA1ARwHIEgBVg5wkY41W2GgdEVDFBNe HicQw0ydk7HrHrIWXM62d48ePNfCkNATcTcNWGrCRhqxDxcwMYBwBkByCGC4EILgoJTQUDeW8W8TcTchZ1qBWIYchOBbBCA1AhgSMJGGrFzLmh6fL LeBkAyAZAcgSAXAhB0Kxnj4YDkJwXA6FAzwj8IIJoJoPQXA6EPOcg4R8FOBnCRljRAwlwoh4EUwLhFTCVA MR0R8wyxOhgAwwDgJjBUABMM0hMxBgnTPtMrMBEEcwJQCzIXIdMZMG821DmjDKHJAwLDKHRMQsJkwbwVRoFs//PkxEx5dDnwAZ7wANHgEUFJHGCUCQp3LWCQQYGAATI5QzwHBJF4UFktpfATT2l0goAGNADLOU64HAMCQCK50szABAIkDS2/j8gl6l6Di7QgBEiAfMEADBnyZBgeAWCMK4xvBbhoRZj1M ktsNMTrMNcHEwHQEzAjAHMGQAQwRQZTBHALMGMDkzhh2jGhLtMgsMMwfhOzCnGLMMcKgwOw8pqHMoGtvdDzos0AIAiXIsBAmGsRFtYcBABmB0AUYjQfhhDAfjoCrETAGArMOAJ4iAAMCMFkwXwh5fffuhpYMhyP2bl3MVAJQrSYQDsna7G2 fx/GvyAwUQbTAdAFCAHVKyIAduTXHZZXDjNS57/VeVJ5 JBJ 0kATkCSells8/NBt/2/5Dj1s chDBYSINutNS9FQwDwBWHjgASKRgAAJOyYC4Ao0CMNAKBgB6KK1hYBkAAHROM9mLsknb8avTcB0MerV6jl7llE70egOerRh9WcP/FoHqtVsO/In2f G2tsdnH L/KSSvBQB4OATam27Yi4jiBgBFOpq15bTQU6k1G4LoWo1mMAwDQwlBEzEnKsMkA7c5JYuTOzK2MvAbEysSPTM dOOn1XEzGgIzXzmPODVvs1cyNTJxQ9MsAWwy//PkxDlz7DIMAd7gAek5EwnjcjX9QVN1N0czFyijQKOmMi4IYw8RvzFvCHMHYBQwdQlTRxVNvm8ycGjLYlMTAQ=="}

我们可以通过检查事件属性来区分音频数据的 JSON 行。音频 JSON 将 tts_message 作为值。音频 mp3 二进制文件以 Base64 格式存储在 JSON 的音频属性中。

处理数据的问题

实时播放 TTS 音频时遇到的第一个问题是 JSON 行被分成数据包,并且每个数据包都不是有效的 JSON 数据。

从中间切开的数据包示例

euimRrhsPMZiMAl BqSZMDmIkQEcDb/8 TEtHm8MhwA3p/p8dA0CCpAxwMMPABoYMIWwUDG6BRmiYZg2G6gRidGanOm5i5iaIYmfkH8Z/FmEopqJGZKXihYEIRxCKYKtlQuMvPjPQIwUVFFECDRnRCYEimGmA6cji41yQMImMEmhaHrVKpCxo2OYx6Q5RcJKAKkah4X6MckHEqdwKgHGHltDUjCy46HMgTCpwodAM8KijREwSSEk5hB4gRGFfC0ouYoeDiYtNREDgKQsTT6EI4egmMMBxpQZmoUJmAAg6YPDmQISgSECAZQOLfAUEQAG/dgxAVkxfFHGorEHB4CS Yugwk2gq8akIwMsZIuIzUSrCAGm1iBnoYA8lcoYSlaIJ5RjCblwbsh8sB3skA7Gcx3zmSOKnXNJO6ObKklhuYjlVL1dSMhgwVJtFzMeWFufNKy3ODmCExBTUUzLjEwMKqqqqqqqqqqqqqqqqqqCIEWFIAA4DAWKkMDDIBA4lBqGDdmZwzAkGJFoYiwEV0IQOQHg1AATJiUM6F0z2fDE6PMvlc6DhTMJ MNH4xWwzBwKMMCgHAwwUFQwjGEgMgovgIBMIMECYxYSDKAwSoMOBC4Ez682pEZIB8kBuiawZEaSnFAjIEwSFRxGUJIXMGRMmfNCPApcKL/8 TEiVdEKlJm5pM9gz0MyScwo04BgqjEFh489MGKVw=="}

数据包从 JSON 行的中间开始。我们必须组合多个数据包才能获得有效的 JSON 行。

第二个问题是 JSON 中的音频数据块不是有效的音频数据。数据在 mp3 帧的中间被剪切。

执行

为了处理JSON和mp3的分割数据,我们必须采取一些聪明的方法。流程如下:

How to realize Real-Time Speech with Dify API

首先,我们必须获取有效的 JSON 数据,并在接收数据包时将其拆分为 JSON。当我们得到一个以 \n 结尾的数据包时,我们可以说到目前为止收到的数据包的串联没有在中间被切断。伪代码是这样的。

let packets = []
stream.on('data', (bytes) => {
   const text = bytes.toString()
   packets.push(text)
   if (text.endsWith('\n')) {
      // Extract audio data from the packets.
      const audioChunks = extractAudioChunks(packets.join(''))
      // Clear the packet array
      packets = []
   }
})

其次,我们必须将音频块分割成 mp3 帧。我们将音频块连接成二进制文件并找到其中的每个 mp3 帧。

const mp3Frames = []
const binaryToProcess = Buffer.concat([...audioChunks])
let frameStartIndex = 0
for (let i = 0; i 



这不是分割成 mp3 帧的完整实现。在实际过程中,我们必须考虑当我们从音频二进制文件中提取 mp3 帧时存在剩余字节并在下一次迭代中使用剩余字节作为音频字节的开头的情况。请检查我的 Github 存储库以了解完整的实现。

版本聲明 本文轉載於:https://dev.to/ku6ryo/how-to-realize-real-time-speech-with-dify-api-4ii1?1如有侵犯,請聯絡[email protected]刪除
最新教學 更多>
  • 如何在 PHP 中編寫基本函數來從文字中刪除表情符號?
    如何在 PHP 中編寫基本函數來從文字中刪除表情符號?
    用 PHP 編寫一個簡單的 removeEmoji 函數處理線上文字通常需要刪除表情符號,特別是在 Instagram 評論等情況下。本文探討了針對這種需求的解決方案,利用 PHP preg_replace 函數來有效地消除給定文字中的表情符號。 removeEmoji 函數利用一系列正規表示式來匹...
    程式設計 發佈於2024-11-07
  • Slim 和 Flight PHP 框架比較
    Slim 和 Flight PHP 框架比較
    为什么要使用微框架? 在社交媒体上,新的 PHP 开发人员经常会问“我的项目应该使用什么框架”,通常给出的答案是“Laravel”或“Symfony”。 虽然这些都是不错的选择,但这个问题的正确答案应该是“你需要框架做什么?” 正确的框架应该能够满足您的需要,并且不会包含大量您永远...
    程式設計 發佈於2024-11-07
  • 如何建立您的第一個 Python 遊戲:使用 PyGame 創建簡單射擊遊戲的逐步指南
    如何建立您的第一個 Python 遊戲:使用 PyGame 創建簡單射擊遊戲的逐步指南
    Hi lovely readers, Have you ever wanted to create your own video game? Maybe you’ve thought about building a simple shooter game where you can move ar...
    程式設計 發佈於2024-11-07
  • 為什麼我的 Java JDBC 程式碼在連接到 Oracle 時拋出“IO 錯誤:網路適配器無法建立連線”?
    為什麼我的 Java JDBC 程式碼在連接到 Oracle 時拋出“IO 錯誤:網路適配器無法建立連線”?
    診斷Oracle JDBC「IO 錯誤:網路適配器無法建立連線」嘗試使用JDBC 執行簡單的Java 程式碼時要連線到Oracle資料庫,您可能會遇到神秘的錯誤「IO 錯誤:網路適配器無法建立連線」。這個令人費解的消息源於 JDBC 驅動程式的模糊術語,並且可能由各種根本原因造成。以下是一些可能導致...
    程式設計 發佈於2024-11-07
  • 如何使用 SwingPropertyChangeSupport 動態更新 JTextArea?
    如何使用 SwingPropertyChangeSupport 動態更新 JTextArea?
    使用SwingPropertyChangeSupport 動態更新JTextArea在此程式碼中,每當底層資料模型表示時,SwingPropertyChangeSupport 用於觸發JTextArea 用於觸發JTextArea 中的更新透過ArrayForUpdating 類別進行更改。這允許動...
    程式設計 發佈於2024-11-07
  • 如何將 Bootstrap 欄位中的內容置中?
    如何將 Bootstrap 欄位中的內容置中?
    Bootstrap 列中內容居中在 Bootstrap 中,可以透過多種方法實現列中內容居中。 一常見的方法是在列 div 中使用align=“center”屬性。例如:<div class="row"> <div class="col-xs-1&...
    程式設計 發佈於2024-11-07
  • 使用 Golang 進行身份驗證、授權、MFA 等
    使用 Golang 進行身份驗證、授權、MFA 等
    "Ó o cara falando de autenticação em pleno 2024!" Sim! Vamos explorar como realizar fluxos de autenticação e autorização, e de quebra, entender a dife...
    程式設計 發佈於2024-11-07
  • 什麼是「export default」以及它與「module.exports」有何不同?
    什麼是「export default」以及它與「module.exports」有何不同?
    ES6 的“預設導出”解釋JavaScript 的ES6 模組系統引入了“預設導出”,這是一種定義預設導出的獨特方式。 module.在提供的範例中,檔案SafeString.js 定義了一個SafeString 類,並將其匯出為預設匯出,使用:export default SafeString;此...
    程式設計 發佈於2024-11-07
  • SafeLine 如何透過進階動態保護來保護您的網站
    SafeLine 如何透過進階動態保護來保護您的網站
    SafeLine 由長亭科技在過去十年中開發,是一款最先進的 Web 應用程式防火牆 (WAF),它利用先進的語義分析演算法來提供針對線上威脅的頂級保護。 SafeLine 在專業網路安全圈中享有盛譽並值得信賴,已成為保護網站安全的可靠選擇。 SafeLine 社群版源自企業級 Ray Shiel...
    程式設計 發佈於2024-11-07
  • 在 React 中建立自訂 Hook 的最佳技巧
    在 React 中建立自訂 Hook 的最佳技巧
    React 的自訂 Hooks 是從元件中移除可重複使用功能的有效工具。它們支援程式碼中的 DRY(不要重複)、可維護性和整潔性。但開發有用的自訂鉤子需要牢牢掌握 React 的基本想法和推薦程式。在這篇文章中,我們將討論在 React 中開發自訂鉤子的一些最佳策略,並舉例說明如何有效地應用它們。 ...
    程式設計 發佈於2024-11-07
  • 如何解決 PHPMailer 中的 HTML 渲染問題?
    如何解決 PHPMailer 中的 HTML 渲染問題?
    PHPmailer的HTML渲染問題及其解決方法在PHPmailer中,當嘗試發送HTML格式的電子郵件時,用戶可能會遇到一個意想不到的問題:顯示實際的HTML程式碼在電子郵件正文中而不是預期內容。為了有效地解決這個問題,方法呼叫的特定順序至關重要。 正確的順序包括在呼叫 isHTML() 方法之前...
    程式設計 發佈於2024-11-07
  • 透過 REST API 上的 GraphQL 增強 React 應用程式
    透過 REST API 上的 GraphQL 增強 React 應用程式
    In the rapidly changing world of web development, optimizing and scaling applications is always an issue. React.js had an extraordinary success for fr...
    程式設計 發佈於2024-11-07
  • 為什麼我的登入表單無法連線到我的資料庫?
    為什麼我的登入表單無法連線到我的資料庫?
    登入表單的資料庫連線問題儘管結合使用PHP 和MySQL 以及HTML 和Dreamweaver,您仍無法建立正確的資料庫連線問題。登入表單和資料庫之間的連線。缺少錯誤訊息可能會產生誤導,因為登入嘗試仍然不成功。 連接失敗的原因:資料庫憑證不正確: 確保用於連接資料庫的主機名稱、資料庫名稱、用戶名和...
    程式設計 發佈於2024-11-07
  • 為什麼嵌套絕對定位會導致元素引用其父級而不是祖父母?
    為什麼嵌套絕對定位會導致元素引用其父級而不是祖父母?
    嵌套定位:絕對內的絕對嵌套的絕對定位元素可能會在 CSS 中表現出意想不到的行為。考慮這種情況:第一個div (#1st) 位置:相對第二個div (#2nd) 相對於#1st 絕對定位A第三個div(#3rd)絕對定位在#2nd內問:為什麼#3rd相對於#2nd而不是#1st絕對定位? A: 因為...
    程式設計 發佈於2024-11-07
  • 如何有效率地從字串中剝離特定文字?
    如何有效率地從字串中剝離特定文字?
    高效剝離字串:如何刪除特定文字片段遇到操作字串值的需求是程式設計中的常見任務。經常面臨的一項特殊挑戰是刪除特定文字片段,同時保留特定部分。在本文中,我們將深入研究此問題的實用解決方案。 考慮這樣一個場景,您有一個字串“data-123”,您的目標是消除“data-”前綴,只留下“123”值。為了實現...
    程式設計 發佈於2024-11-07

免責聲明: 提供的所有資源部分來自互聯網,如果有侵犯您的版權或其他權益,請說明詳細緣由並提供版權或權益證明然後發到郵箱:[email protected] 我們會在第一時間內為您處理。

Copyright© 2022 湘ICP备2022001581号-3