Как реализовать речь в реальном времени с помощью Dify API

титульная страница > программирование > Как реализовать речь в реальном времени с помощью Dify API

Как реализовать речь в реальном времени с помощью Dify API

Опубликовано 1 ноября 2024 г.

Просматривать:626

Dify — это SaaS-платформа с открытым исходным кодом для построения рабочих процессов LLM в Интернете. Я использую API для создания диалогового интерфейса ИИ в своем приложении. Я изо всех сил пытался получить потоки TTS в качестве ответа API и воспроизвести их. Здесь я демонстрирую, как обрабатывать аудиопотоки и правильно их воспроизводить.

Я использую конечную точку API https://api.dify.ai/v1/chat-messages для текстового чата. Он возвращает аудиоданные в том же потоке, что и текстовый ответ, если мы включили функцию преобразования текста в речь в наших приложениях Dify.

Нажмите кнопку «ДОБАВИТЬ ФУНКЦИЮ» и добавьте функцию «Текст в речь».
How to realize Real-Time Speech with Dify API

Вы можете проверить ответ API с помощью следующей команды Curl.

curl -X POST 'https://api.dify.ai/v1/chat-messages' \
--header 'Authorization: Bearer YOUR_API_KEY' \
--header 'Content-Type: application/json' \
--data-raw '{
    "inputs": {},
    "query": "What are the specs of the iPhone 13 Pro Max?",
    "response_mode": "streaming",
    "conversation_id": "",
    "user": "abc-123",
    "files": []
}'

Я демонстрирую на TypeScript/JavaScript, но вы можете применить ту же логику к своему языку программирования.

Анатомия потоковых данных

Во-первых, давайте разберемся, какие данные Dify использует для потоков.

Формат потоковой передачи данных

Dify использует следующий формат текстовых данных. Это похоже на строки JSON, но это не совсем то же самое.

data: {"event": "workflow_started", "conversation_id": "065fb118-35d4-4524-a067-a70338ece575", "message_id": "3f0fe3cf-5aa1-4f7c-8abe-2505bf07ae8f", "created_at": 1724478014, "task_id": "dacb2d5c-a6f5-44b5-b5a6-de000f24aeba", "workflow_run_id": "50100b30-e458-4632-ad7d-8dd383823376", "data": {"id": "50100b30-e458-4632-ad7d-8dd383823376", "workflow_id": "debdb4fa-dcab-4233-9413-fd6d17b9e36a", "sequence_number": 334, "inputs": {"sys.query": "What are the specs of the iPhone 13 Pro Max?", "sys.files": [], "sys.conversation_id": "065fb118-35d4-4524-a067-a70338ece575", "sys.user_id": "abc-123"}, "created_at": 1724478014}}

data: {"event": "node_started", "conversation_id": "065fb118-35d4-4524-a067-a70338ece575", "message_id": "3f0fe3cf-5aa1-4f7c-8abe-2505bf07ae8f", "created_at": 1724478014, "task_id": "dacb2d5c-a6f5-44b5-b5a6-de000f24aeba", "workflow_run_id": "50100b30-e458-4632-ad7d-8dd383823376", "data": {"id": "bf912f43-29dd-4ee2-aefa-0fabdf379257", "node_id": "1721365917005", "node_type": "start", "title": "\u958b\u59cb", "index": 1, "predecessor_node_id": null, "inputs": null, "created_at": 1724478013, "extras": {}}}

data: {"event": "node_finished", "conversation_id": "065fb118-35d4-4524-a067-a70338ece575", "message_id": "3f0fe3cf-5aa1-4f7c-8abe-2505bf07ae8f", "created_at": 1724478014, "task_id": "dacb2d5c-a6f5-44b5-b5a6-de000f24aeba", "workflow_run_id": "50100b30-e458-4632-ad7d-8dd383823376", "data": {"id": "bf912f43-29dd-4ee2-aefa-0fabdf379257", "node_id": "1721365917005", "node_type": "start", "title": "\u958b\u59cb", "index": 1, "predecessor_node_id": null, "inputs": {"sys.query": "What are the specs of the iPhone 13 Pro Max?", "sys.files": [], "sys.conversation_id": "065fb118-35d4-4524-a067-a70338ece575", "sys.user_id": "abc-123", "sys.dialogue_count": 1}, "process_data": null, "outputs": {"sys.query": "What are the specs of the iPhone 13 Pro Max?", "sys.files": [], "sys.conversation_id": "065fb118-35d4-4524-a067-a70338ece575", "sys.user_id": "abc-123", "sys.dialogue_count": 1}, "status": "succeeded", "error": null, "elapsed_time": 0.001423838548362255, "execution_metadata": null, "created_at": 1724478013, "finished_at": 1724478013, "files": []}}

data: {"event": "node_started", "conversation_id": "065fb118-35d4-4524-a067-a70338ece575", "message_id": "3f0fe3cf-5aa1-4f7c-8abe-2505bf07ae8f", "created_at": 1724478014, "task_id": "dacb2d5c-a6f5-44b5-b5a6-de000f24aeba", "workflow_run_id": "50100b30-e458-4632-ad7d-8dd383823376", "data": {"id": "89ed58ab-6157-499b-81b2-92b1336969a5", "node_id": "llm", "node_type": "llm", "title": "LLM", "index": 2, "predecessor_node_id": "1721365917005", "inputs": null, "created_at": 1724478013, "extras": {}}}

...

В ответ Dify отправляет текстовый ответ и аудиоданные.

Пример строки текста ответа

data: {"event": "message", "conversation_id": "aa13eb24-e90a-4c5d-a36b-756f0e3be8f8", "message_id": "5be739a9-09ba-4444-9905-a2f37f8c7a21", "created_at": 1724301648, "task_id": "0643f770-e9d3-408f-b771-bb2e9430b4f9", "id": "5be739a9-09ba-4444-9905-a2f37f8c7a21", "answer": "MP"}

Пример строки аудиоданных

data: {"event": "tts_message", "conversation_id": "aa13eb24-e90a-4c5d-a36b-756f0e3be8f8", "message_id": "5be739a9-09ba-4444-9905-a2f37f8c7a21", "created_at": 1724301648, "task_id": "0643f770-e9d3-408f-b771-bb2e9430b4f9", "audio": "//PkxABhvDm0DVp4ACUUfvWc1CFlh0tR9Oh7LxzHRsGBuGx155x3JqTJiwKKZf8wIcxpMzJU0h4zhgyQwwwIsgWQMAALQMkanBTjfCPgZwFsDOGGIYJoJoJoJoPQPQLYEgAOwM4SMXMW8TcNWGrEPEME0HoIQTg0DQNA0C5k7IOLeJuDnDVi5nWyJwgghAagQwTQQgJAGrDVibiFhqw1YR8HOEjBUA5AcgagQwTQTQQgJAAtgLYKsQ8hZc0PV7OrE4SgQgFIAsAQAwA6H0Uv4t4m4m49Yt4uYOQHIBkAyAqAkAuB0Mm6UeKxDGRrIODkByBqBNBCA1ARwHIEgBVg5wkY41W2GgdEVDFBNe HicQw0ydk7HrHrIWXM62d48ePNfCkNATcTcNWGrCRhqxDxcwMYBwBkByCGC4EILgoJTQUDeW8W8TcTchZ1qBWIYchOBbBCA1AhgSMJGGrFzLmh6fL LeBkAyAZAcgSAXAhB0Kxnj4YDkJwXA6FAzwj8IIJoJoPQXA6EPOcg4R8FOBnCRljRAwlwoh4EUwLhFTCVA MR0R8wyxOhgAwwDgJjBUABMM0hMxBgnTPtMrMBEEcwJQCzIXIdMZMG821DmjDKHJAwLDKHRMQsJkwbwVRoFs//PkxEx5dDnwAZ7wANHgEUFJHGCUCQp3LWCQQYGAATI5QzwHBJF4UFktpfATT2l0goAGNADLOU64HAMCQCK50szABAIkDS2/j8gl6l6Di7QgBEiAfMEADBnyZBgeAWCMK4xvBbhoRZj1M ktsNMTrMNcHEwHQEzAjAHMGQAQwRQZTBHALMGMDkzhh2jGhLtMgsMMwfhOzCnGLMMcKgwOw8pqHMoGtvdDzos0AIAiXIsBAmGsRFtYcBABmB0AUYjQfhhDAfjoCrETAGArMOAJ4iAAMCMFkwXwh5fffuhpYMhyP2bl3MVAJQrSYQDsna7G2 fx/GvyAwUQbTAdAFCAHVKyIAduTXHZZXDjNS57/VeVJ5 JBJ 0kATkCSells8/NBt/2/5Dj1s chDBYSINutNS9FQwDwBWHjgASKRgAAJOyYC4Ao0CMNAKBgB6KK1hYBkAAHROM9mLsknb8avTcB0MerV6jl7llE70egOerRh9WcP/FoHqtVsO/In2f G2tsdnH L/KSSvBQB4OATam27Yi4jiBgBFOpq15bTQU6k1G4LoWo1mMAwDQwlBEzEnKsMkA7c5JYuTOzK2MvAbEysSPTM dOOn1XEzGgIzXzmPODVvs1cyNTJxQ9MsAWwy//PkxDlz7DIMAd7gAek5EwnjcjX9QVN1N0czFyijQKOmMi4IYw8RvzFvCHMHYBQwdQlTRxVNvm8ycGjLYlMTAQ=="}

Мы можем отличить строки аудиоданных JSON, проверив свойство event. Аудио JSON имеет значение tts_message. Двоичный файл аудио в формате mp3 хранится в свойстве audio файлов JSON в формате base64.

Проблемы с обработкой данных

Первая проблема, с которой мы сталкиваемся при воспроизведении звука TTS в реальном времени, заключается в том, что строки JSON разбиваются на пакеты, и каждый пакет сам по себе не является допустимыми данными JSON.

Пример пакета, разрезанного посередине

euimRrhsPMZiMAl BqSZMDmIkQEcDb/8 TEtHm8MhwA3p/p8dA0CCpAxwMMPABoYMIWwUDG6BRmiYZg2G6gRidGanOm5i5iaIYmfkH8Z/FmEopqJGZKXihYEIRxCKYKtlQuMvPjPQIwUVFFECDRnRCYEimGmA6cji41yQMImMEmhaHrVKpCxo2OYx6Q5RcJKAKkah4X6MckHEqdwKgHGHltDUjCy46HMgTCpwodAM8KijREwSSEk5hB4gRGFfC0ouYoeDiYtNREDgKQsTT6EI4egmMMBxpQZmoUJmAAg6YPDmQISgSECAZQOLfAUEQAG/dgxAVkxfFHGorEHB4CS Yugwk2gq8akIwMsZIuIzUSrCAGm1iBnoYA8lcoYSlaIJ5RjCblwbsh8sB3skA7Gcx3zmSOKnXNJO6ObKklhuYjlVL1dSMhgwVJtFzMeWFufNKy3ODmCExBTUUzLjEwMKqqqqqqqqqqqqqqqqqqCIEWFIAA4DAWKkMDDIBA4lBqGDdmZwzAkGJFoYiwEV0IQOQHg1AATJiUM6F0z2fDE6PMvlc6DhTMJ MNH4xWwzBwKMMCgHAwwUFQwjGEgMgovgIBMIMECYxYSDKAwSoMOBC4Ez682pEZIB8kBuiawZEaSnFAjIEwSFRxGUJIXMGRMmfNCPApcKL/8 TEiVdEKlJm5pM9gz0MyScwo04BgqjEFh489MGKVw=="}

Пакет начинается с середины строки JSON. Нам нужно объединить несколько пакетов, чтобы получить действительные строки JSON.

Вторая проблема заключается в том, что фрагмент аудиоданных в JSON не является допустимыми аудиоданными. Данные обрезаются посередине mp3-кадров.

Выполнение

Чтобы обрабатывать разделенные данные JSON и mp3, нам нужно поступить разумно. Ход процесса следующий:

How to realize Real-Time Speech with Dify API

Во-первых, нам нужно получить действительные данные JSON и разделить их на JSON при получении пакетов. Когда мы получили пакет с \n в конце, мы можем сказать, что конкатенация полученных пакетов не разрезана посередине. Псевдокод такой.

let packets = []
stream.on('data', (bytes) => {
   const text = bytes.toString()
   packets.push(text)
   if (text.endsWith('\n')) {
      // Extract audio data from the packets.
      const audioChunks = extractAudioChunks(packets.join(''))
      // Clear the packet array
      packets = []
   }
})

Во-вторых, нам нужно разделить аудиофрагменты на mp3-кадры. Мы объединяем аудиофрагменты в двоичный файл и находим в нем каждый mp3-кадр.

const mp3Frames = []
const binaryToProcess = Buffer.concat([...audioChunks])
let frameStartIndex = 0
for (let i = 0; i 



Это не полная реализация разделения на mp3-кадры. В реальном процессе нам приходится учитывать случаи, когда у нас есть оставшиеся байты, когда мы извлекаем mp3-кадры из двоичного аудиофайла, и используем остаток в качестве начала аудиобайтов в следующей итерации. Пожалуйста, проверьте мой репозиторий Github для полной реализации.

Заявление о выпуске Эта статья воспроизведена по адресу: https://dev.to/ku6ryo/how-to-realize-real-time-speech-with-dify-api-4ii1?1 Если есть какие-либо нарушения, пожалуйста, свяжитесь с [email protected] удалить его

Последний учебник Более>

Как создать собственный поток ввода на C++ для чтения данных из нестандартных источников?
Создание пользовательских потоков ввода в C Пользовательские потоки ввода в C предоставляют мощный механизм для чтения данных из нестандартных источни...

программирование Опубликовано 7 ноября 2024 г.
Руководство по интеграции SharpAPI с Laravel
Welcome to the SharpAPI Laravel Integration Guide! This repository provides a comprehensive, step-by-step tutorial on how to integrate SharpAPI into y...

программирование Опубликовано 7 ноября 2024 г.
Как интегрировать Firebase с Laravel
Laravel and Firebase are two powerful tools that can significantly enhance the development of modern web applications. Laravel, a popular PHP framewor...

программирование Опубликовано 7 ноября 2024 г.
Expo с Redux Toolkit, файловой системой и Redux Persist: подробное руководство
Redux Toolkit — это популярная библиотека, которая упрощает разработку Redux, предоставляя набор утилит и соглашений. Он включает в себя шаблоны созда...

программирование Опубликовано 7 ноября 2024 г.
Как решать проблемы с областью видимости переменных в невложенных лямбда-замыканиях?
Лямбда-замыкание PythonПроблемаИнкапсуляция переменных внутри замыканий для удаления их из сигнатур функций — это метод, часто используемый для эффект...

программирование Опубликовано 7 ноября 2024 г.
Как легко интегрировать кнопку в поле ввода с помощью современного CSS?
Как интегрировать кнопку во ввод с помощью современного CSSПроблема:Создать визуальный элемент где кнопка легко интегрируется в поле ввода, обеспечива...

программирование Опубликовано 7 ноября 2024 г.
C++ в разработке ядра: подробное руководство
Введение Разработка ядра традиционно является областью C из-за его прямого доступа к оборудованию и минимальных затрат времени выполнения. Од...

программирование Опубликовано 7 ноября 2024 г.
Реализация модулей CSS в вашем проекте React
CSS-модули в React — это способ определения области действия CSS путем автоматического создания уникальных имен классов. Это предотвращает конфликты и...

программирование Опубликовано 7 ноября 2024 г.
Какие ресурсы доступны для реализации модели «Комета»?
Comet: шаблон для Server PushServer Push, метод обеспечения двунаправленной связи между сервером и веб-клиентами, получил значительное распространение...

программирование Опубликовано 7 ноября 2024 г.
Изучение типов амбулаторных программ для благополучия психического здоровья
Амбулаторное лечение психических заболеваний — это тип программы, которая не требует госпитализации в медицинское учреждение на ночь. Эта терапия в ос...

программирование Опубликовано 7 ноября 2024 г.
Как инициализировать фрейм OpenGL в C++ Builder: пошаговое руководство
Как инициализировать фрейм OpenGL в C BuilderИнициализация фрейма OpenGL в форме в C Builder может оказаться сложной задачей. Вы можете столкнуться с ...

программирование Опубликовано 7 ноября 2024 г.
Улучшите свои навыки веб-разработки с помощью этих редких атрибутов HTML
Introduction HTML attributes are most often referred to as the overlooked heroes of web development, playing a crucial role in shaping the st...

программирование Опубликовано 7 ноября 2024 г.
Как преобразовать строки в двоичные файлы в Python: ASCII против Unicode?
Преобразование строк в двоичные числа в PythonВ Python вы можете столкнуться с необходимостью представить строку как последовательность двоичных цифр....

программирование Опубликовано 7 ноября 2024 г.
Почему переменные внешнего экземпляра должны быть окончательными при доступе к ним из анонимных внутренних классов в Java?
Внутренние классы Java: почему необходимы «конечные» внешние переменные экземпляраПри определении анонимных внутренних классов в Java вы можете столкн...

программирование Опубликовано 7 ноября 2024 г.
Понимание аргументов ключевых слов в Python
When you're programming in Python, knowing how to pass arguments to functions is key for writing clear, flexible, and easy-to-maintain code. One powe...

программирование Опубликовано 7 ноября 2024 г.