如何使用 Web 音訊 API 防止語音轉錄中的說話者回饋

首頁 > 程式設計 > 如何使用 Web 音訊 API 防止語音轉錄中的說話者回饋

如何使用 Web 音訊 API 防止語音轉錄中的說話者回饋

發佈於2024-08-21

How to Prevent Speaker Feedback in Speech Transcription Using Web Audio API

最近我需要弄清楚另一件事，將我的 Assembly.ai 轉錄引擎連接到聲音很大的前端。

這是我嘗試過的：

請求使用迴聲消除功能的麥克風存取權限。
使用 Web Audio API 設定音訊處理鏈。
將此設定與語音辨識整合。
利用 DynamicsCompressorNode 進行額外的音訊處理。

步驟 1：請求使用迴聲消除功能的麥克風存取權限

第一步是請求存取啟用了迴聲消除的麥克風。此功能內建於大多數現代瀏覽器中，有助於減少揚聲器的回饋。

async function getMicrophoneStream() {
    const constraints = {
        audio: {
            echoCancellation: true,
            noiseSuppression: true,
            autoGainControl: true
        }
    };

    try {
        const stream = await navigator.mediaDevices.getUserMedia(constraints);
        return stream;
    } catch (err) {
        console.error('Error accessing the microphone', err);
        return null;
    }
}

解釋

約束：我們指定音頻約束以啟用迴聲消除、噪音抑制和自動增益控制。
錯誤處理：如果使用者拒絕存取或有任何其他問題，我們會擷取並記錄錯誤。

第 2 步：設定 Web 音訊 API 節點

接下來，我們設定 Web Audio API 來處理音訊串流。這涉及建立 AudioContext 並連接各個節點，包括 DynamicsCompressorNode。

async function setupAudioProcessing(stream) {
    const audioContext = new AudioContext();
    const source = audioContext.createMediaStreamSource(stream);

    // Create a DynamicsCompressorNode for additional processing
    const compressor = audioContext.createDynamicsCompressor();
    compressor.threshold.setValueAtTime(-50, audioContext.currentTime); // Example settings
    compressor.knee.setValueAtTime(40, audioContext.currentTime);
    compressor.ratio.setValueAtTime(12, audioContext.currentTime);
    compressor.attack.setValueAtTime(0, audioContext.currentTime);
    compressor.release.setValueAtTime(0.25, audioContext.currentTime);

    // Connect nodes
    source.connect(compressor);
    compressor.connect(audioContext.destination);

    return { audioContext, source, compressor };
}

解釋

AudioContext：表示音訊環境。
MediaStreamSource：將麥克風流連接到音訊上下文。
DynamicsCompressorNode：降低音訊訊號的動態範圍，有助於管理背景雜訊和回饋。

第 3 步：與語音辨識集成

最後，我們將音訊處理設定與 Web Speech API 整合以執行語音辨識。

async function startSpeechRecognition() {
    const stream = await getMicrophoneStream();
    if (!stream) return;

    const { audioContext, source, compressor } = await setupAudioProcessing(stream);

    const recognition = new (window.SpeechRecognition || window.webkitSpeechRecognition)();
    recognition.continuous = true;
    recognition.interimResults = true;

    recognition.onresult = (event) => {
        for (let i = event.resultIndex; i  {
        console.error('Speech recognition error', event.error);
    };

    recognition.start();

    // Handle audio context resume if needed
    if (audioContext.state === 'suspended') {
        audioContext.resume();
    }

    return recognition;
}

// Start the speech recognition process
startSpeechRecognition();

解釋

語音辨識設定：我們設定了用於連續和暫時語音辨識的 Web Speech API。
事件處理：我們處理onresult和onerror事件來處理識別結果和錯誤。
開始辨識：我們啟動語音辨識流程並確保音訊情境不會暫停。

希望您發現這很有用。

編碼愉快！

提姆。

版本聲明本文轉載於：https://dev.to/fosteman/how-to-prevent-speaker-feedback-in-speech-transcription-using-web-audio-api-2da4?1如有侵犯，請聯絡study_golang@163 .com刪除

最新教學更多>

如何使用FormData（）處理多個文件上傳？
）處理多個文件輸入時，通常需要處理多個文件上傳時，通常是必要的。 The fd.append("fileToUpload[]", files[x]); method can be used for this purpose, allowing you to send multi...

程式設計發佈於2025-03-11
如何在整個HTML文檔中設計特定元素類型的第一個實例？

程式設計發佈於2025-03-11
$如何修復\“常規錯誤：2006 MySQL Server在插入數據時已經消失\”？$
如何修復\“常規錯誤：2006 MySQL Server在插入數據時已經消失\”？
How to Resolve "General error: 2006 MySQL server has gone away" While Inserting RecordsIntroduction:Inserting data into a MySQL database can...

程式設計發佈於2025-03-11
如何使用PHP從XML文件中有效地檢索屬性值？
從php $xml = simplexml_load_file($file); foreach ($xml->Var[0]->attributes() as $attributeName => $attributeValue) { echo $attributeName,...

程式設計發佈於2025-03-11
如何限制動態大小的父元素中元素的滾動範圍？
在交互式接口中實現垂直滾動元素的CSS高度限制問題：考慮一個佈局，其中我們具有與用戶垂直滾動一起移動的可滾動地圖div，同時與固定的固定sidebar保持一致。但是，地圖的滾動無限期擴展，超過了視口的高度，阻止用戶訪問頁面頁腳。 $("#map").css({ margin...

程式設計發佈於2025-03-11
如何使用Regex在PHP中有效地提取括號內的文本
php：在括號內提取文本在處理括號內的文本時，找到最有效的解決方案是必不可少的。一種方法是利用PHP的字符串操作函數，如下所示：作為替代 $ text ='忽略除此之外的一切（text）'; preg_match（'＃（（。 &&& [Regex使用模式來搜索特...

程式設計發佈於2025-03-11
在Java中使用for-to-loop和迭代器進行收集遍歷之間是否存在性能差異？
For Each Loop vs. Iterator: Efficiency in Collection TraversalIntroductionWhen traversing a collection in Java, the choice arises between using a for-...

程式設計發佈於2025-03-11
如何從Python中的字符串中刪除表情符號：固定常見錯誤的初學者指南？
從python import codecs import codecs import codecs 導入 text = codecs.decode（'這狗\ u0001f602'.encode（'utf-8'），'utf-8'）印刷（文字）＃帶有...

程式設計發佈於2025-03-11
$哪種方法更有效地用於點 - 填點檢測：射線跟踪或matplotlib \的路徑contains_points？$
哪種方法更有效地用於點 - 填點檢測：射線跟踪或matplotlib \的路徑contains_points？
在Python Matplotlib's path.contains_points FunctionMatplotlib's path.contains_points function employs a path object to represent the polygon.它...

程式設計發佈於2025-03-11
對象擬合：IE和Edge中的封面失敗，如何修復？
To resolve this issue, we employ a clever CSS solution that solves the problem:position: absolute;top: 50%;left: 50%;transform: translate(-50%, -50％）...

程式設計發佈於2025-03-11
為什麼不使用CSS`content'屬性顯示圖像？
在Firefox extemers屬性為某些圖像很大，&& && && &&華倍華倍[華氏華倍華氏度]很少見，卻是某些瀏覽屬性很少，尤其是特定於Firefox的某些瀏覽器未能在使用內容屬性引用時未能顯示圖像的情況。這可以在提供的CSS類中看到：。 googlepic { 內容：url（&...

程式設計發佈於2025-03-11
如何使用不同數量列的聯合數據庫表？
合併列數不同的表當嘗試合併列數不同的數據庫表時，可能會遇到挑戰。一種直接的方法是在列數較少的表中，為缺失的列追加空值。例如，考慮兩個表，表 A 和表 B，其中表 A 的列數多於表 B。為了合併這些表，同時處理表 B 中缺失的列，請按照以下步驟操作：確定表 B 中缺失的列，並將它們添加到表的...

程式設計發佈於2025-03-11
如何使用替換指令在GO MOD中解析模塊路徑差異？
在使用GO MOD時，在GO MOD 中克服模塊路徑差異時，可能會遇到衝突，其中3個Party Package將另一個PAXPANCE帶有導入式套件之間的另一個軟件包，並在導入式套件之間導入另一個軟件包。如迴聲消息所證明的那樣： go.etcd.io/bbolt [&&&&&&&&&&&&&&&&...

程式設計發佈於2025-03-11
HTML格式標籤
HTML 格式化元素 **HTML Formatting is a process of formatting text for better look and feel. HTML provides us ability to format text without us...

程式設計發佈於2025-03-11
如何為PostgreSQL中的每個唯一標識符有效地檢索最後一行？
postgresql：為每個唯一標識符在postgresql中提取最後一行，您可能需要遇到與數據集合中每個不同標識的信息相關的信息。考慮以下數據：[ 1 2014-02-01 kjkj 在數據集中的每個唯一ID中檢索最後一行的信息，您可以在操作員上使用Postgres的有效效率： id dat...

程式設計發佈於2025-03-11