كيفية تحقيق الكلام في الوقت الحقيقي باستخدام Dify API

الصفحة الأمامية > برمجة > كيفية تحقيق الكلام في الوقت الحقيقي باستخدام Dify API

كيفية تحقيق الكلام في الوقت الحقيقي باستخدام Dify API

تم النشر بتاريخ 2024-11-01

تصفح:256

Dify عبارة عن منصة SaaS مفتوحة المصدر لبناء سير عمل LLM عبر الإنترنت. أنا أستخدم واجهة برمجة التطبيقات (API) لإنشاء تجربة محادثة AI في تطبيقي. كنت أجد صعوبة في الحصول على تدفقات تحويل النص إلى كلام (TTS) كاستجابة لواجهة برمجة التطبيقات (API) وتشغيلها. هنا أوضح كيفية معالجة التدفقات الصوتية وتشغيلها بشكل صحيح.

أنا أستخدم نقطة نهاية واجهة برمجة التطبيقات https://api.dify.ai/v1/chat-messages للدردشة النصية. يقوم بإرجاع البيانات الصوتية في نفس الدفق مثل الاستجابة النصية إذا قمنا بتمكين ميزة Text to Seach في تطبيقات Dify الخاصة بنا.

اضغط على زر ADD FEATURE وأضف ميزة Text to Speach.
How to realize Real-Time Speech with Dify API

يمكنك التحقق من الاستجابة من واجهة برمجة التطبيقات (API) باستخدام أمر الضفيرة التالي.

curl -X POST 'https://api.dify.ai/v1/chat-messages' \
--header 'Authorization: Bearer YOUR_API_KEY' \
--header 'Content-Type: application/json' \
--data-raw '{
    "inputs": {},
    "query": "What are the specs of the iPhone 13 Pro Max?",
    "response_mode": "streaming",
    "conversation_id": "",
    "user": "abc-123",
    "files": []
}'

أوضح ذلك باستخدام TypeScript / JavaScript ولكن يمكنك تطبيق نفس المنطق على لغة البرمجة الخاصة بك.

تشريح البيانات المتدفقة

أولاً، دعونا نفهم نوع البيانات التي يستخدمها Dify للتدفقات.

تنسيق البيانات المتدفقة

يستخدم Dify تنسيق البيانات النصية التالي. إنها مثل خطوط JSON ولكنها ليست هي نفسها تمامًا.

data: {"event": "workflow_started", "conversation_id": "065fb118-35d4-4524-a067-a70338ece575", "message_id": "3f0fe3cf-5aa1-4f7c-8abe-2505bf07ae8f", "created_at": 1724478014, "task_id": "dacb2d5c-a6f5-44b5-b5a6-de000f24aeba", "workflow_run_id": "50100b30-e458-4632-ad7d-8dd383823376", "data": {"id": "50100b30-e458-4632-ad7d-8dd383823376", "workflow_id": "debdb4fa-dcab-4233-9413-fd6d17b9e36a", "sequence_number": 334, "inputs": {"sys.query": "What are the specs of the iPhone 13 Pro Max?", "sys.files": [], "sys.conversation_id": "065fb118-35d4-4524-a067-a70338ece575", "sys.user_id": "abc-123"}, "created_at": 1724478014}}

data: {"event": "node_started", "conversation_id": "065fb118-35d4-4524-a067-a70338ece575", "message_id": "3f0fe3cf-5aa1-4f7c-8abe-2505bf07ae8f", "created_at": 1724478014, "task_id": "dacb2d5c-a6f5-44b5-b5a6-de000f24aeba", "workflow_run_id": "50100b30-e458-4632-ad7d-8dd383823376", "data": {"id": "bf912f43-29dd-4ee2-aefa-0fabdf379257", "node_id": "1721365917005", "node_type": "start", "title": "\u958b\u59cb", "index": 1, "predecessor_node_id": null, "inputs": null, "created_at": 1724478013, "extras": {}}}

data: {"event": "node_finished", "conversation_id": "065fb118-35d4-4524-a067-a70338ece575", "message_id": "3f0fe3cf-5aa1-4f7c-8abe-2505bf07ae8f", "created_at": 1724478014, "task_id": "dacb2d5c-a6f5-44b5-b5a6-de000f24aeba", "workflow_run_id": "50100b30-e458-4632-ad7d-8dd383823376", "data": {"id": "bf912f43-29dd-4ee2-aefa-0fabdf379257", "node_id": "1721365917005", "node_type": "start", "title": "\u958b\u59cb", "index": 1, "predecessor_node_id": null, "inputs": {"sys.query": "What are the specs of the iPhone 13 Pro Max?", "sys.files": [], "sys.conversation_id": "065fb118-35d4-4524-a067-a70338ece575", "sys.user_id": "abc-123", "sys.dialogue_count": 1}, "process_data": null, "outputs": {"sys.query": "What are the specs of the iPhone 13 Pro Max?", "sys.files": [], "sys.conversation_id": "065fb118-35d4-4524-a067-a70338ece575", "sys.user_id": "abc-123", "sys.dialogue_count": 1}, "status": "succeeded", "error": null, "elapsed_time": 0.001423838548362255, "execution_metadata": null, "created_at": 1724478013, "finished_at": 1724478013, "files": []}}

data: {"event": "node_started", "conversation_id": "065fb118-35d4-4524-a067-a70338ece575", "message_id": "3f0fe3cf-5aa1-4f7c-8abe-2505bf07ae8f", "created_at": 1724478014, "task_id": "dacb2d5c-a6f5-44b5-b5a6-de000f24aeba", "workflow_run_id": "50100b30-e458-4632-ad7d-8dd383823376", "data": {"id": "89ed58ab-6157-499b-81b2-92b1336969a5", "node_id": "llm", "node_type": "llm", "title": "LLM", "index": 2, "predecessor_node_id": "1721365917005", "inputs": null, "created_at": 1724478013, "extras": {}}}

...

في الرد، يدفع Dify الإجابة النصية والبيانات الصوتية.

مثال على سطر من الإجابة النصية

data: {"event": "message", "conversation_id": "aa13eb24-e90a-4c5d-a36b-756f0e3be8f8", "message_id": "5be739a9-09ba-4444-9905-a2f37f8c7a21", "created_at": 1724301648, "task_id": "0643f770-e9d3-408f-b771-bb2e9430b4f9", "id": "5be739a9-09ba-4444-9905-a2f37f8c7a21", "answer": "MP"}

مثال لخط البيانات الصوتية

data: {"event": "tts_message", "conversation_id": "aa13eb24-e90a-4c5d-a36b-756f0e3be8f8", "message_id": "5be739a9-09ba-4444-9905-a2f37f8c7a21", "created_at": 1724301648, "task_id": "0643f770-e9d3-408f-b771-bb2e9430b4f9", "audio": "//PkxABhvDm0DVp4ACUUfvWc1CFlh0tR9Oh7LxzHRsGBuGx155x3JqTJiwKKZf8wIcxpMzJU0h4zhgyQwwwIsgWQMAALQMkanBTjfCPgZwFsDOGGIYJoJoJoJoPQPQLYEgAOwM4SMXMW8TcNWGrEPEME0HoIQTg0DQNA0C5k7IOLeJuDnDVi5nWyJwgghAagQwTQQgJAGrDVibiFhqw1YR8HOEjBUA5AcgagQwTQTQQgJAAtgLYKsQ8hZc0PV7OrE4SgQgFIAsAQAwA6H0Uv4t4m4m49Yt4uYOQHIBkAyAqAkAuB0Mm6UeKxDGRrIODkByBqBNBCA1ARwHIEgBVg5wkY41W2GgdEVDFBNe HicQw0ydk7HrHrIWXM62d48ePNfCkNATcTcNWGrCRhqxDxcwMYBwBkByCGC4EILgoJTQUDeW8W8TcTchZ1qBWIYchOBbBCA1AhgSMJGGrFzLmh6fL LeBkAyAZAcgSAXAhB0Kxnj4YDkJwXA6FAzwj8IIJoJoPQXA6EPOcg4R8FOBnCRljRAwlwoh4EUwLhFTCVA MR0R8wyxOhgAwwDgJjBUABMM0hMxBgnTPtMrMBEEcwJQCzIXIdMZMG821DmjDKHJAwLDKHRMQsJkwbwVRoFs//PkxEx5dDnwAZ7wANHgEUFJHGCUCQp3LWCQQYGAATI5QzwHBJF4UFktpfATT2l0goAGNADLOU64HAMCQCK50szABAIkDS2/j8gl6l6Di7QgBEiAfMEADBnyZBgeAWCMK4xvBbhoRZj1M ktsNMTrMNcHEwHQEzAjAHMGQAQwRQZTBHALMGMDkzhh2jGhLtMgsMMwfhOzCnGLMMcKgwOw8pqHMoGtvdDzos0AIAiXIsBAmGsRFtYcBABmB0AUYjQfhhDAfjoCrETAGArMOAJ4iAAMCMFkwXwh5fffuhpYMhyP2bl3MVAJQrSYQDsna7G2 fx/GvyAwUQbTAdAFCAHVKyIAduTXHZZXDjNS57/VeVJ5 JBJ 0kATkCSells8/NBt/2/5Dj1s chDBYSINutNS9FQwDwBWHjgASKRgAAJOyYC4Ao0CMNAKBgB6KK1hYBkAAHROM9mLsknb8avTcB0MerV6jl7llE70egOerRh9WcP/FoHqtVsO/In2f G2tsdnH L/KSSvBQB4OATam27Yi4jiBgBFOpq15bTQU6k1G4LoWo1mMAwDQwlBEzEnKsMkA7c5JYuTOzK2MvAbEysSPTM dOOn1XEzGgIzXzmPODVvs1cyNTJxQ9MsAWwy//PkxDlz7DIMAd7gAek5EwnjcjX9QVN1N0czFyijQKOmMi4IYw8RvzFvCHMHYBQwdQlTRxVNvm8ycGjLYlMTAQ=="}

يمكننا تمييز أسطر JSON من البيانات الصوتية عن طريق التحقق من خاصية الحدث. يحتوي الصوت JSON على tts_message كقيمة. يتم تخزين الصوت الثنائي mp3 في خاصية الصوت الخاصة بـ JSONs بتنسيق base64.

مشاكل في التعامل مع البيانات

المشكلة الأولى التي نواجهها عندما نشغل صوت TTS في الوقت الفعلي هي أن خطوط JSON مقسمة إلى حزم وكل حزمة ليست بيانات JSON صالحة كما هي.

مثال لحزمة مقطوعة من المنتصف

euimRrhsPMZiMAl BqSZMDmIkQEcDb/8 TEtHm8MhwA3p/p8dA0CCpAxwMMPABoYMIWwUDG6BRmiYZg2G6gRidGanOm5i5iaIYmfkH8Z/FmEopqJGZKXihYEIRxCKYKtlQuMvPjPQIwUVFFECDRnRCYEimGmA6cji41yQMImMEmhaHrVKpCxo2OYx6Q5RcJKAKkah4X6MckHEqdwKgHGHltDUjCy46HMgTCpwodAM8KijREwSSEk5hB4gRGFfC0ouYoeDiYtNREDgKQsTT6EI4egmMMBxpQZmoUJmAAg6YPDmQISgSECAZQOLfAUEQAG/dgxAVkxfFHGorEHB4CS Yugwk2gq8akIwMsZIuIzUSrCAGm1iBnoYA8lcoYSlaIJ5RjCblwbsh8sB3skA7Gcx3zmSOKnXNJO6ObKklhuYjlVL1dSMhgwVJtFzMeWFufNKy3ODmCExBTUUzLjEwMKqqqqqqqqqqqqqqqqqqCIEWFIAA4DAWKkMDDIBA4lBqGDdmZwzAkGJFoYiwEV0IQOQHg1AATJiUM6F0z2fDE6PMvlc6DhTMJ MNH4xWwzBwKMMCgHAwwUFQwjGEgMgovgIBMIMECYxYSDKAwSoMOBC4Ez682pEZIB8kBuiawZEaSnFAjIEwSFRxGUJIXMGRMmfNCPApcKL/8 TEiVdEKlJm5pM9gz0MyScwo04BgqjEFh489MGKVw=="}

تبدأ الحزمة من منتصف سطر JSON. يتعين علينا دمج حزم متعددة للحصول على خطوط JSON صالحة.

المشكلة الثانية هي أن مجموعة البيانات الصوتية في JSON ليست بيانات صوتية صالحة. يتم قطع البيانات في منتصف إطارات mp3.

تطبيق

للتعامل مع البيانات المنقسمة لـ JSON وmp3، يتعين علينا القيام بطريقة ذكية. سير العملية كالتالي:

How to realize Real-Time Speech with Dify API

أولاً، يتعين علينا الحصول على بيانات JSON صالحة وتقسيمها إلى بيانات JSON أثناء تلقي الحزم. عندما نحصل على حزمة تحتوي على \n في النهاية، يمكننا القول أن تسلسل الحزم المستلمة حتى الآن لم يتم قطعه في المنتصف. الكود الزائف مثل هذا.

let packets = []
stream.on('data', (bytes) => {
   const text = bytes.toString()
   packets.push(text)
   if (text.endsWith('\n')) {
      // Extract audio data from the packets.
      const audioChunks = extractAudioChunks(packets.join(''))
      // Clear the packet array
      packets = []
   }
})

ثانيًا، يتعين علينا تقسيم المقاطع الصوتية إلى إطارات mp3. نقوم بربط المقاطع الصوتية في ملف ثنائي ونجد كل إطارات mp3 فيه.

const mp3Frames = []
const binaryToProcess = Buffer.concat([...audioChunks])
let frameStartIndex = 0
for (let i = 0; i 



هذا ليس التنفيذ الكامل للتقسيم إلى إطارات mp3. في العملية الفعلية، علينا أن نأخذ في الاعتبار الحالات التي يكون لدينا فيها بايتات متبقية عندما نستخرج إطارات mp3 من الملف الثنائي الصوتي ونستخدم الباقي كبداية للبايتات الصوتية في التكرار التالي. يرجى التحقق من مستودع Github الخاص بي للتنفيذ الكامل.

بيان الافراج تم إعادة نشر هذه المقالة على: https://dev.to/ku6ryo/how-to-realize-real-time-speech-with-dify-api-4ii1?1 إذا كان هناك أي انتهاك، يرجى الاتصال بـ [email protected] لحذفه

أحدث البرنامج التعليمي أكثر>

كيفية التحقق من تضمين عنوان IP في شبكة CIDR الفرعية؟
التحقق من تضمين عنوان IP في شبكة فرعية لـ CIDR لتحديد ما إذا كان عنوان IPv4 يقع ضمن شبكة فرعية محددة لـ CIDR، تتضمن الطريقة المباشرة ما يلي: ا...

برمجة تم النشر بتاريخ 2024-11-07
كيفية وضع أيقونة فوق صورة أو مقطع فيديو وتشغيل التنزيل عند النقر؟
وضع أيقونة فوق صورة أو مقطع فيديو المشكلة: تحتاج إلى وضع أيقونة فوق صورة أو مقطع فيديو، ومحاذاته في الزاوية اليسرى السفلية. عند النقر عليه،...

برمجة تم النشر بتاريخ 2024-11-07
كيف يمكنني الحفاظ على فواصل الأسطر عند تحويل HTML إلى نص عادي باستخدام Jsoup؟
الحفاظ على فواصل الأسطر باستخدام Html الخاص بـ Jsoup لتحويل النص العادي يوفر Jsoup أدوات قوية لمعالجة HTML، ولكن تحويله الافتراضي من HTML إلى ...

برمجة تم النشر بتاريخ 2024-11-07
كيف يمكنني إنشاء دفق إدخال مخصص في C++ لقراءة البيانات من مصادر غير قياسية؟
إنشاء تدفقات إدخال مخصصة في لغة C توفر تدفقات الإدخال المخصصة في لغة C آلية قوية لقراءة البيانات من مصادر غير قياسية. في حين أن توسيع فئة istr...

برمجة تم النشر بتاريخ 2024-11-07
دليل تكامل SharpAPI Laravel
Welcome to the SharpAPI Laravel Integration Guide! This repository provides a comprehensive, step-by-step tutorial on how to integrate SharpAPI into y...

برمجة تم النشر بتاريخ 2024-11-07
كيفية دمج Firebase مع Laravel
Laravel and Firebase are two powerful tools that can significantly enhance the development of modern web applications. Laravel, a popular PHP framewor...

برمجة تم النشر بتاريخ 2024-11-07
المعرض مع مجموعة أدوات Redux، ونظام الملفات، وRedux Persist: دليل شامل
Redux Toolkit هي مكتبة شائعة تعمل على تبسيط عملية تطوير Redux من خلال توفير مجموعة من الأدوات المساعدة والاتفاقيات. وهو يشتمل على أنماط إنشاء المخ...

برمجة تم النشر بتاريخ 2024-11-07
كيفية التعامل مع مشكلات النطاق المتغير في عمليات إغلاق Lambda غير المتداخلة؟
نطاق إغلاق بايثون لامدا المشكلة يعد تغليف المتغيرات داخل عمليات الإغلاق لإزالتها من توقيعات الوظائف تقنية تستخدم غالبًا لهيكلة التعليمات البرم...

برمجة تم النشر بتاريخ 2024-11-07
كيفية دمج زر بسلاسة في حقل الإدخال باستخدام CSS الحديث؟
كيفية دمج زر في إدخال باستخدام CSS الحديث المشكلة: إنشاء عنصر مرئي حيث يتم دمج الزر بسلاسة في حقل الإدخال، مما يسمح بالتفاعل العادي للمستخد...

برمجة تم النشر بتاريخ 2024-11-07
C++ في تطوير النواة: دليل شامل
مقدمة يعد تطوير Kernel تقليديًا عالم لغة C نظرًا لوصوله المباشر إلى الأجهزة والحد الأدنى من الحمل الزائد لوقت التشغيل. ومع ذلك، فقد وجدت ...

برمجة تم النشر بتاريخ 2024-11-07
تنفيذ وحدات CSS في مشروع React الخاص بك
وحدات CSS في React هي طريقة لتحديد نطاق CSS عن طريق إنشاء أسماء فئات فريدة تلقائيًا. وهذا يمنع تضارب أسماء الفئات في التطبيقات الكبيرة ويسمح بالأن...

برمجة تم النشر بتاريخ 2024-11-07
ما هي الموارد المتاحة لتنفيذ نمط المذنب؟
المذنب: نموذج لدفع الخادم دفع الخادم، وهي تقنية لتمكين الاتصال ثنائي الاتجاه بين الخادم وعملاء الويب، قد اكتسبت أهمية كبيرة الفائدة في الآونة ...

برمجة تم النشر بتاريخ 2024-11-07
استكشاف أنواع برامج العيادات الخارجية من أجل الصحة العقلية
نهج علاج الصحة العقلية للمرضى الخارجيين هو نوع من البرامج التي لا تؤكد على دخول منشأة طبية بين عشية وضحاها. يتم تقديم هذا العلاج في الغالب في مكات...

برمجة تم النشر بتاريخ 2024-11-07
كيفية تهيئة إطار OpenGL في C++ Builder: دليل خطوة بخطوة
كيفية تهيئة إطار OpenGL في C Builder يمكن أن تكون تهيئة إطار OpenGL داخل نموذج في C Builder مهمة صعبة. قد تواجه صعوبات عند محاولة تكييف كود Op...

برمجة تم النشر بتاريخ 2024-11-07
عزز مهاراتك في تطوير الويب باستخدام سمات HTML النادرة هذه
Introduction HTML attributes are most often referred to as the overlooked heroes of web development, playing a crucial role in shaping the st...

برمجة تم النشر بتاريخ 2024-11-07