Dify APIでリアルタイムスピーチを実現する方法

表紙 > プログラミング > Dify APIでリアルタイムスピーチを実現する方法

Dify APIでリアルタイムスピーチを実現する方法

2024 年 11 月 1 日に公開

ブラウズ：679

Dify は、オンラインで LLM ワークフローを構築するためのオープンソースの SaaS プラットフォームです。 API を使用して、アプリ上で会話型 AI エクスペリエンスを作成しています。 API 応答として TTS ストリームを取得して再生するのに苦労しました。ここでは、オーディオストリームを処理して正しく再生する方法を示します。

テキストチャットに API エンドポイント https://api.dify.ai/v1/chat-messages を使用しています。 Dify アプリで Text to Speech 機能を有効にしている場合、テキスト応答と同じストリームで音声データが返されます。

[機能の追加]ボタンを押して、テキスト読み上げ機能を追加します。
How to realize Real-Time Speech with Dify API

APIからのレスポンスは以下のcurlコマンドで確認できます。

curl -X POST 'https://api.dify.ai/v1/chat-messages' \
--header 'Authorization: Bearer YOUR_API_KEY' \
--header 'Content-Type: application/json' \
--data-raw '{
    "inputs": {},
    "query": "What are the specs of the iPhone 13 Pro Max?",
    "response_mode": "streaming",
    "conversation_id": "",
    "user": "abc-123",
    "files": []
}'

ここでは TypeScript / JavaScript で説明しますが、同じロジックをプログラミング言語に適用できます。

ストリーミングデータの構造

まず、Dify がストリームにどのような種類のデータを使用しているかを理解しましょう。

ストリーミングデータ形式

Difyは以下のテキストデータ形式を使用しています。これは JSON 行に似ていますが、まったく同じではありません。

data: {"event": "workflow_started", "conversation_id": "065fb118-35d4-4524-a067-a70338ece575", "message_id": "3f0fe3cf-5aa1-4f7c-8abe-2505bf07ae8f", "created_at": 1724478014, "task_id": "dacb2d5c-a6f5-44b5-b5a6-de000f24aeba", "workflow_run_id": "50100b30-e458-4632-ad7d-8dd383823376", "data": {"id": "50100b30-e458-4632-ad7d-8dd383823376", "workflow_id": "debdb4fa-dcab-4233-9413-fd6d17b9e36a", "sequence_number": 334, "inputs": {"sys.query": "What are the specs of the iPhone 13 Pro Max?", "sys.files": [], "sys.conversation_id": "065fb118-35d4-4524-a067-a70338ece575", "sys.user_id": "abc-123"}, "created_at": 1724478014}}

data: {"event": "node_started", "conversation_id": "065fb118-35d4-4524-a067-a70338ece575", "message_id": "3f0fe3cf-5aa1-4f7c-8abe-2505bf07ae8f", "created_at": 1724478014, "task_id": "dacb2d5c-a6f5-44b5-b5a6-de000f24aeba", "workflow_run_id": "50100b30-e458-4632-ad7d-8dd383823376", "data": {"id": "bf912f43-29dd-4ee2-aefa-0fabdf379257", "node_id": "1721365917005", "node_type": "start", "title": "\u958b\u59cb", "index": 1, "predecessor_node_id": null, "inputs": null, "created_at": 1724478013, "extras": {}}}

data: {"event": "node_finished", "conversation_id": "065fb118-35d4-4524-a067-a70338ece575", "message_id": "3f0fe3cf-5aa1-4f7c-8abe-2505bf07ae8f", "created_at": 1724478014, "task_id": "dacb2d5c-a6f5-44b5-b5a6-de000f24aeba", "workflow_run_id": "50100b30-e458-4632-ad7d-8dd383823376", "data": {"id": "bf912f43-29dd-4ee2-aefa-0fabdf379257", "node_id": "1721365917005", "node_type": "start", "title": "\u958b\u59cb", "index": 1, "predecessor_node_id": null, "inputs": {"sys.query": "What are the specs of the iPhone 13 Pro Max?", "sys.files": [], "sys.conversation_id": "065fb118-35d4-4524-a067-a70338ece575", "sys.user_id": "abc-123", "sys.dialogue_count": 1}, "process_data": null, "outputs": {"sys.query": "What are the specs of the iPhone 13 Pro Max?", "sys.files": [], "sys.conversation_id": "065fb118-35d4-4524-a067-a70338ece575", "sys.user_id": "abc-123", "sys.dialogue_count": 1}, "status": "succeeded", "error": null, "elapsed_time": 0.001423838548362255, "execution_metadata": null, "created_at": 1724478013, "finished_at": 1724478013, "files": []}}

data: {"event": "node_started", "conversation_id": "065fb118-35d4-4524-a067-a70338ece575", "message_id": "3f0fe3cf-5aa1-4f7c-8abe-2505bf07ae8f", "created_at": 1724478014, "task_id": "dacb2d5c-a6f5-44b5-b5a6-de000f24aeba", "workflow_run_id": "50100b30-e458-4632-ad7d-8dd383823376", "data": {"id": "89ed58ab-6157-499b-81b2-92b1336969a5", "node_id": "llm", "node_type": "llm", "title": "LLM", "index": 2, "predecessor_node_id": "1721365917005", "inputs": null, "created_at": 1724478013, "extras": {}}}

...

応答で、Dify はテキスト応答と音声データをプッシュします。

テキスト回答の例

data: {"event": "message", "conversation_id": "aa13eb24-e90a-4c5d-a36b-756f0e3be8f8", "message_id": "5be739a9-09ba-4444-9905-a2f37f8c7a21", "created_at": 1724301648, "task_id": "0643f770-e9d3-408f-b771-bb2e9430b4f9", "id": "5be739a9-09ba-4444-9905-a2f37f8c7a21", "answer": "MP"}

音声データのサンプル行

data: {"event": "tts_message", "conversation_id": "aa13eb24-e90a-4c5d-a36b-756f0e3be8f8", "message_id": "5be739a9-09ba-4444-9905-a2f37f8c7a21", "created_at": 1724301648, "task_id": "0643f770-e9d3-408f-b771-bb2e9430b4f9", "audio": "//PkxABhvDm0DVp4ACUUfvWc1CFlh0tR9Oh7LxzHRsGBuGx155x3JqTJiwKKZf8wIcxpMzJU0h4zhgyQwwwIsgWQMAALQMkanBTjfCPgZwFsDOGGIYJoJoJoJoPQPQLYEgAOwM4SMXMW8TcNWGrEPEME0HoIQTg0DQNA0C5k7IOLeJuDnDVi5nWyJwgghAagQwTQQgJAGrDVibiFhqw1YR8HOEjBUA5AcgagQwTQTQQgJAAtgLYKsQ8hZc0PV7OrE4SgQgFIAsAQAwA6H0Uv4t4m4m49Yt4uYOQHIBkAyAqAkAuB0Mm6UeKxDGRrIODkByBqBNBCA1ARwHIEgBVg5wkY41W2GgdEVDFBNe HicQw0ydk7HrHrIWXM62d48ePNfCkNATcTcNWGrCRhqxDxcwMYBwBkByCGC4EILgoJTQUDeW8W8TcTchZ1qBWIYchOBbBCA1AhgSMJGGrFzLmh6fL LeBkAyAZAcgSAXAhB0Kxnj4YDkJwXA6FAzwj8IIJoJoPQXA6EPOcg4R8FOBnCRljRAwlwoh4EUwLhFTCVA MR0R8wyxOhgAwwDgJjBUABMM0hMxBgnTPtMrMBEEcwJQCzIXIdMZMG821DmjDKHJAwLDKHRMQsJkwbwVRoFs//PkxEx5dDnwAZ7wANHgEUFJHGCUCQp3LWCQQYGAATI5QzwHBJF4UFktpfATT2l0goAGNADLOU64HAMCQCK50szABAIkDS2/j8gl6l6Di7QgBEiAfMEADBnyZBgeAWCMK4xvBbhoRZj1M ktsNMTrMNcHEwHQEzAjAHMGQAQwRQZTBHALMGMDkzhh2jGhLtMgsMMwfhOzCnGLMMcKgwOw8pqHMoGtvdDzos0AIAiXIsBAmGsRFtYcBABmB0AUYjQfhhDAfjoCrETAGArMOAJ4iAAMCMFkwXwh5fffuhpYMhyP2bl3MVAJQrSYQDsna7G2 fx/GvyAwUQbTAdAFCAHVKyIAduTXHZZXDjNS57/VeVJ5 JBJ 0kATkCSells8/NBt/2/5Dj1s chDBYSINutNS9FQwDwBWHjgASKRgAAJOyYC4Ao0CMNAKBgB6KK1hYBkAAHROM9mLsknb8avTcB0MerV6jl7llE70egOerRh9WcP/FoHqtVsO/In2f G2tsdnH L/KSSvBQB4OATam27Yi4jiBgBFOpq15bTQU6k1G4LoWo1mMAwDQwlBEzEnKsMkA7c5JYuTOzK2MvAbEysSPTM dOOn1XEzGgIzXzmPODVvs1cyNTJxQ9MsAWwy//PkxDlz7DIMAd7gAek5EwnjcjX9QVN1N0czFyijQKOmMi4IYw8RvzFvCHMHYBQwdQlTRxVNvm8ycGjLYlMTAQ=="}

イベントプロパティをチェックすることで、オーディオデータの JSON 行を区別できます。オーディオ JSON には tts_message が値として含まれます。オーディオ mp3 バイナリは、base64 形式で JSON の audio プロパティに保存されます。

データの取り扱いに関する問題

TTS オーディオをリアルタイムで再生するときに発生する最初の問題は、JSON 行がパケットに分割されており、各パケットがそのままでは有効な JSON データではないことです。

真ん中でカットされたパケットの例

euimRrhsPMZiMAl BqSZMDmIkQEcDb/8 TEtHm8MhwA3p/p8dA0CCpAxwMMPABoYMIWwUDG6BRmiYZg2G6gRidGanOm5i5iaIYmfkH8Z/FmEopqJGZKXihYEIRxCKYKtlQuMvPjPQIwUVFFECDRnRCYEimGmA6cji41yQMImMEmhaHrVKpCxo2OYx6Q5RcJKAKkah4X6MckHEqdwKgHGHltDUjCy46HMgTCpwodAM8KijREwSSEk5hB4gRGFfC0ouYoeDiYtNREDgKQsTT6EI4egmMMBxpQZmoUJmAAg6YPDmQISgSECAZQOLfAUEQAG/dgxAVkxfFHGorEHB4CS Yugwk2gq8akIwMsZIuIzUSrCAGm1iBnoYA8lcoYSlaIJ5RjCblwbsh8sB3skA7Gcx3zmSOKnXNJO6ObKklhuYjlVL1dSMhgwVJtFzMeWFufNKy3ODmCExBTUUzLjEwMKqqqqqqqqqqqqqqqqqqCIEWFIAA4DAWKkMDDIBA4lBqGDdmZwzAkGJFoYiwEV0IQOQHg1AATJiUM6F0z2fDE6PMvlc6DhTMJ MNH4xWwzBwKMMCgHAwwUFQwjGEgMgovgIBMIMECYxYSDKAwSoMOBC4Ez682pEZIB8kBuiawZEaSnFAjIEwSFRxGUJIXMGRMmfNCPApcKL/8 TEiVdEKlJm5pM9gz0MyScwo04BgqjEFh489MGKVw=="}

パケットは JSON 行の途中から始まります。有効な JSON 行を取得するには、複数のパケットを結合する必要があります。

2 番目の問題は、JSON 内の音声データチャンクが有効な音声データではないことです。 mp3 フレームの途中でデータが切れています。

実装

JSONとmp3の分割データを扱うには、何らかの工夫が必要です。処理の流れは以下の通りです:

How to realize Real-Time Speech with Dify API

まず、有効な JSON データを取得し、パケットの受信中に JSON に分割する必要があります。末尾に \n が付いているパケットを取得した場合、これまでに受信したパケットの連結が途中で切れていないと言えます。擬似コードはこんな感じです。

let packets = []
stream.on('data', (bytes) => {
   const text = bytes.toString()
   packets.push(text)
   if (text.endsWith('\n')) {
      // Extract audio data from the packets.
      const audioChunks = extractAudioChunks(packets.join(''))
      // Clear the packet array
      packets = []
   }
})

2 番目に、オーディオチャンクを mp3 フレームに分割する必要があります。オーディオチャンクをバイナリに連結し、その中の各 mp3 フレームを見つけます。

const mp3Frames = []
const binaryToProcess = Buffer.concat([...audioChunks])
let frameStartIndex = 0
for (let i = 0; i 



これは、mp3 フレームへの分割の完全な実装ではありません。実際のプロセスでは、オーディオ バイナリから mp3 フレームを抽出したときに残りのバイトがあり、その残りを次の反復でオーディオ バイトの先頭として使用する場合を考慮する必要があります。完全な実装については、私の Github リポジトリを確認してください。

リリースステートメントこの記事は次の場所に転載されています: https://dev.to/ku6ryo/how-to-realize-real-time-speech-with-dify-api-4ii1?1 権利侵害がある場合は、[email protected] までご連絡ください。それを削除するには

最新のチュートリアルもっと>

SharpAPI Laravel 統合ガイド
Welcome to the SharpAPI Laravel Integration Guide! This repository provides a comprehensive, step-by-step tutorial on how to integrate SharpAPI into y...

プログラミング 2024 年 11 月 7 日に公開
Firebase と Laravel を統合する方法
Laravel and Firebase are two powerful tools that can significantly enhance the development of modern web applications. Laravel, a popular PHP framewor...

プログラミング 2024 年 11 月 7 日に公開
Redux Toolkit、ファイルシステム、および Redux Persist を使用した Expo: 包括的なガイド
Redux Toolkit は、一連のユーティリティと規約を提供することで Redux 開発を簡素化する人気のあるライブラリです。これには、Redux ロジックの作成プロセスを効率化するリデューサーとアクション作成パターンが含まれています。 Redux Persist と Redux Toolkit...

プログラミング 2024 年 11 月 7 日に公開
入れ子になっていないラムダクロージャで変数のスコープの問題を処理するにはどうすればよいですか?
Python Lambda クロージャスコープ問題変数をクロージャ内にカプセル化して関数シグネチャから削除することは、効率的なコード構造化によく使用される手法です。ただし、ネストされていないラムダの場合、クロージャは変数の最終値を保持するため、反復変数に基づいて特定の値にアクセスしようとすると問題...

プログラミング 2024 年 11 月 7 日に公開
最新の CSS を使用してボタンを入力フィールドにシームレスに統合するにはどうすればよいですか?
最新の CSS を使用してボタンを入力に統合する方法問題:視覚要素を作成するボタンが入力フィールド内にシームレスに統合されているため、通常のユーザー操作が可能になり、テキストの可視性が維持され、アクセシビリティとスクリーンリーダーの互換性が維持されます。解決策: フレックスボックスとフォーム境界線...

プログラミング 2024 年 11 月 7 日に公開
カーネル開発における C++: 包括的なガイド
導入カーネル開発は、ハードウェアへの直接アクセスと実行時のオーバーヘッドが最小限に抑えられているため、従来は C の領域でした。ただし、C は、そのオブジェクト指向機能により、よりクリーンで保守性の高いコードにつながる可能性があるため、カーネルプログラミングに得意分野を見つけま...

プログラミング 2024 年 11 月 7 日に公開
React プロジェクトへの CSS モジュールの実装
React の CSS モジュールは、一意のクラス名を自動的に生成することで CSS の範囲を指定する方法です。これにより、大規模なアプリケーションでのクラス名の衝突が防止され、モジュール形式のスタイルが可能になります。 React プロジェクトで CSS モジュールを使用する方法は次のとおりです:...

プログラミング 2024 年 11 月 7 日に公開
Comet パターンの実装に利用できるリソースは何ですか?
Comet: サーバープッシュのパターンサーバーと Web クライアント間の双方向通信を可能にする技術であるサーバープッシュは、大幅に普及しました。最近の興味。 Comet 設計パターンは、JavaScript アプリケーションでサーバープッシュを実装するための有望なアプローチとして浮上してい...

プログラミング 2024 年 11 月 7 日に公開
精神的健康のための外来プログラムの種類を探る
外来メンタルヘルス治療アプローチは、医療施設に一晩入院する必要のないプログラムの一種です。この療法は主に診療所、病院、クリニックで提供されており、高度に構造化された定期的な治療セッションを受けることができます。新型コロナウイルス感染症（COVID-19）のパンデミック当時、世界中で約2億7,500...

プログラミング 2024 年 11 月 7 日に公開
C++ Builder で OpenGL フレームを初期化する方法: ステップバイステップガイド
C Builder で OpenGL フレームを初期化する方法C Builder のフォーム内で OpenGL フレームを初期化するのは、困難な作業となる場合があります。質問で提供されているサンプルなど、既存の OpenGL コードを適応させようとすると、問題が発生する可能性があります。OpenGL...

プログラミング 2024 年 11 月 7 日に公開
これらの珍しい HTML 属性で Web 開発スキルを向上させましょう
Introduction HTML attributes are most often referred to as the overlooked heroes of web development, playing a crucial role in shaping the st...

プログラミング 2024 年 11 月 7 日に公開
Python で文字列をバイナリに変換する方法: ASCII と Unicode?
Python で文字列をバイナリに変換するPython では、文字列を一連のバイナリ数字として表現する必要が生じる場合があります。これは、データの暗号化やバイナリファイルの操作など、さまざまな理由で役立ちます。bin() 関数の使用文字列をバイナリに変換する最も簡単な方法bin()関数を使うことで...

プログラミング 2024 年 11 月 7 日に公開
Java の匿名内部クラスから外部インスタンス変数にアクセスするときに、外部インスタンス変数を Final にする必要があるのはなぜですか?
Java 内部クラス: 「最終」外部インスタンス変数が必須である理由Java で匿名内部クラスを定義する場合、外部インスタンス変数を「final」としてマークする必要があります。この記事では、この制約の背後にある理由を説明します。提供されたコードで述べたように、インスタンス変数 jtfContent...

プログラミング 2024 年 11 月 7 日に公開
Python のキーワード引数を理解する
When you're programming in Python, knowing how to pass arguments to functions is key for writing clear, flexible, and easy-to-maintain code. One powe...

プログラミング 2024 年 11 月 7 日に公開
印刷時に DIV がページ間で分割されないようにするにはどうすればよいですか?
印刷の問題: ページ間での DIV 分岐の防止動的 DIV がページ間で半分にスライスされるという印刷上のジレンマに遭遇しましたか?この問題は、高さが可変の DIV 要素が多数含まれる長い文書を印刷しようとすると発生します。CSS による解決策この問題に対処するには、CSS プロパティの Break...

プログラミング 2024 年 11 月 7 日に公開