كيفية منع ردود فعل المتحدث في نسخ الكلام باستخدام Web Audio API

الصفحة الأمامية > برمجة > كيفية منع ردود فعل المتحدث في نسخ الكلام باستخدام Web Audio API

كيفية منع ردود فعل المتحدث في نسخ الكلام باستخدام Web Audio API

تم النشر بتاريخ 2024-08-21

تصفح:733

How to Prevent Speaker Feedback in Speech Transcription Using Web Audio API

هناك شيء آخر كنت بحاجة إلى اكتشافه مؤخرًا لتوصيل محرك النسخ Assembly.ai الخاص بي إلى الواجهة الأمامية التي كانت عالية الصوت.

وهنا ما حاولت:

طلب الوصول إلى الميكروفون مع إلغاء الصدى.
قم بإعداد سلسلة معالجة الصوت باستخدام Web Audio API.
ادمج هذا الإعداد مع التعرف على الكلام.
استخدم DynamicsCompressorNode لمعالجة صوتية إضافية.

الخطوة 1: طلب الوصول إلى الميكروفون مع إلغاء الصدى

الخطوة الأولى هي طلب الوصول إلى الميكروفون مع تمكين إلغاء الصدى. هذه الميزة مدمجة في معظم المتصفحات الحديثة وتساعد في تقليل التعليقات الواردة من مكبرات الصوت.

async function getMicrophoneStream() {
    const constraints = {
        audio: {
            echoCancellation: true,
            noiseSuppression: true,
            autoGainControl: true
        }
    };

    try {
        const stream = await navigator.mediaDevices.getUserMedia(constraints);
        return stream;
    } catch (err) {
        console.error('Error accessing the microphone', err);
        return null;
    }
}

توضيح

القيود: نحدد قيود الصوت لتمكين إلغاء الصدى وقمع الضوضاء والتحكم في الكسب التلقائي.
معالجة الأخطاء: إذا رفض المستخدم الوصول أو إذا كان هناك أي مشكلة أخرى، فإننا نكتشف الخطأ ونسجله.

الخطوة 2: إعداد عقد Web Audio API

بعد ذلك، قمنا بإعداد Web Audio API لمعالجة البث الصوتي. يتضمن ذلك إنشاء سياق صوتي وتوصيل العقد المختلفة، بما في ذلك DynamicsCompressorNode.

async function setupAudioProcessing(stream) {
    const audioContext = new AudioContext();
    const source = audioContext.createMediaStreamSource(stream);

    // Create a DynamicsCompressorNode for additional processing
    const compressor = audioContext.createDynamicsCompressor();
    compressor.threshold.setValueAtTime(-50, audioContext.currentTime); // Example settings
    compressor.knee.setValueAtTime(40, audioContext.currentTime);
    compressor.ratio.setValueAtTime(12, audioContext.currentTime);
    compressor.attack.setValueAtTime(0, audioContext.currentTime);
    compressor.release.setValueAtTime(0.25, audioContext.currentTime);

    // Connect nodes
    source.connect(compressor);
    compressor.connect(audioContext.destination);

    return { audioContext, source, compressor };
}

توضيح

AudioContext: يمثل البيئة الصوتية.
MediaStreamSource: يربط دفق الميكروفون بسياق الصوت.
DynamicsCompressorNode: يقلل النطاق الديناميكي للإشارة الصوتية، مما يساعد على إدارة الضوضاء الخلفية والتعليقات.

الخطوة 3: التكامل مع التعرف على الكلام

أخيرًا، قمنا بدمج إعداد معالجة الصوت لدينا مع Web Speech API لإجراء التعرف على الكلام.

async function startSpeechRecognition() {
    const stream = await getMicrophoneStream();
    if (!stream) return;

    const { audioContext, source, compressor } = await setupAudioProcessing(stream);

    const recognition = new (window.SpeechRecognition || window.webkitSpeechRecognition)();
    recognition.continuous = true;
    recognition.interimResults = true;

    recognition.onresult = (event) => {
        for (let i = event.resultIndex; i  {
        console.error('Speech recognition error', event.error);
    };

    recognition.start();

    // Handle audio context resume if needed
    if (audioContext.state === 'suspended') {
        audioContext.resume();
    }

    return recognition;
}

// Start the speech recognition process
startSpeechRecognition();

توضيح

إعداد التعرف على الكلام: قمنا بإعداد Web Speech API للتعرف المستمر والمؤقت على الكلام.
التعامل مع الأحداث: نحن نتعامل مع أحداث onresult وonerror لمعالجة نتائج وأخطاء التعرف.
بدء التعرف: نبدأ عملية التعرف على الكلام ونتأكد من عدم تعليق سياق الصوت.

نأمل أن تجد هذا مفيدًا.

تعليمات سعيدة!

تيم.

بيان الافراج يتم استنساخ هذه المقالة على: https://dev.to/fosteman/how-to-prevent-speaker-feedback-in-speech-transcription-using-web-audio-api-2da4؟1 إذا كان هناك أي انتهاك ، فيرجى الاتصال بـ [email protected] لحذفه.

أحدث البرنامج التعليمي أكثر>

لماذا يتوقف تنفيذ JavaScript عند استخدام زر عودة Firefox؟
مشكلة السجل الملحي: قد يتوقف JavaScript عن التنفيذ بعد استخدام زر عودة Firefox قد يواجه مستخدمو Firefox مشكلة حيث فشل JavaScriptts في الركض عن...

برمجة نشر في 2025-03-11
لماذا تظهر صورة خلفية CSS الخاصة بي؟
توجد ورقة الصورة والأنماط في نفس الدليل ، ومع ذلك ، تظل الخلفية قماشًا أبيض فارغًا. إرفاق اسم ملف الصورة: -صورة الخلفية: url (nickcage.jpg) ؛ إذ...

برمجة نشر في 2025-03-11
كائن مناسب: فشل الغطاء في IE و Edge ، كيفية إصلاح؟
في CSS للحفاظ على ارتفاع الصور المتسق يعمل بسلاسة عبر المتصفحات. ومع ذلك ، في IE و Edge ، تنشأ قضية غريبة. عند توسيع نطاق المتصفح ، تتغير الصورة في...

برمجة نشر في 2025-03-11
لماذا لا يعرض Firefox صورًا باستخدام خاصية CSS `content`؟
يمكن ملاحظة ذلك في فئة CSS المقدمة: . Googlepic { المحتوى: url ('../../ img/googleplusicon.png') ؛ الهامش: -6.5 ٪ ؛ حشو اليمين...

برمجة نشر في 2025-03-11
كيفية استرداد الصف الأخير بكفاءة لكل معرف فريد في postgresql؟
postgresql: استخراج الصف الأخير لكل معرف فريد في postgresql ، قد تواجه مواقف حيث تحتاج إلى استخراج المعلومات من الصف الأخير المرتبط بكل معرف م...

برمجة نشر في 2025-03-11
كيف يمكنك استخدام مجموعة من خلال محور البيانات في MySQL؟
هنا ، نتعامل مع تحد شائع: تحويل البيانات من الصف إلى الصفوف المستندة إلى الأعمدة باستخدام. لننظر في الاستعلام التالي: حدد البيانات مجموعة بوا...

برمجة نشر في 2025-03-11
هل هناك اختلاف في الأداء بين استخدام حلقة EACH وتكرار لجمع اجتماعي في Java؟
تستكشف هذه المقالة اختلافات الكفاءة بين هذين النهجين. يستخدم ITerator داخليًا: قائمة a = new ArrayList () ؛ ل (عدد صحيح عدد صحيح: أ) { intege...

برمجة نشر في 2025-03-11
كيفية تعيين مفاتيح ديناميكي في كائنات JavaScript؟
كيفية إنشاء مفتاح ديناميكي لمتغير كائن JavaScript يستخدم النهج الصحيح بين قوسين مربعين: jsObj['key' i] = 'example' 1; لتسديد خاصية مع مفتاح...

برمجة نشر في 2025-03-11
كيف يمكنك استخراج عنصر عشوائي من صفيف في PHP؟
اختيار عشوائي من صفيف في PHP ، يمكن تحقيق عنصر عشوائي من صفيف بسهولة. ضع في اعتبارك المصفوفة التالية: $items = [523, 3452, 334, 31, 5346];

برمجة نشر في 2025-03-11
هل يمكن تكديس عناصر لزجة متعددة فوق بعضها البعض في CSS النقي؟
هنا: https://webthemez.com/demo/sticky-multi-header-scroll/index.html فقط أفضل استخدام CSS النقي ، بدلاً من تنفيذ JavaScript. لقد جربت قليلاً ...

برمجة نشر في 2025-03-11
كيفية حل تباينات مسار الوحدة في GO Mod باستخدام توجيه استبدال؟
يمكن أن يؤدي ذلك إلى فشل GO MOD TIDY ، كما يتضح من الرسائل المرددة: ` github.com/coreos/etcd/client تم اختبارها بواسطة استيرادات github.com/co...

برمجة نشر في 2025-03-11
كيف يمكنني تصميم المثال الأول لنوع عنصر معين عبر مستند HTML بأكمله؟
مطابقة العنصر الأول من نوع معين في المستند بالكامل يمكن أن يكون التصميم الأول من نوع معين عبر مستند HTML بالكامل تحديًا باستخدام CSS وحده. يق...

برمجة نشر في 2025-03-11
كيف يمكنني اتحاد جداول قاعدة البيانات مع أرقام مختلفة من الأعمدة؟
الجداول مجتمعة مع أعمدة مختلفة ] يمكن أن تواجه تحديات عند محاولة دمج جداول قاعدة البيانات بأعمدة مختلفة. تتمثل الطريقة المباشرة في إلحاق القيم ...

برمجة نشر في 2025-03-11
كيفية التحقق مما إذا كان كائن لديه سمة محددة في بيثون؟
فكر في المثال التالي حيث تثير محاولة الوصول إلى خاصية غير محددة خطأً: >>> a = someclass () >>> A.Property Traceback (أحدث مكالمة أخيرة): ملف &...

برمجة نشر في 2025-03-11
هل تسمح Java بأنواع عائدات متعددة: نظرة فاحصة على الطرق العامة؟
أنواع عائدات متعددة في java: تم الكشف عن المفاهيم الخاطئة getResult (String s) ؛ حيث Foo فئة مخصصة. يبدو أن إعلان الطريقة يضم نوعين من الإرج...

برمجة نشر في 2025-03-11