Web Audio APIを使用した音声文字起こしで話者のフィードバックを防ぐ方法

表紙 > プログラミング > Web Audio APIを使用した音声文字起こしで話者のフィードバックを防ぐ方法

Web Audio APIを使用した音声文字起こしで話者のフィードバックを防ぐ方法

2024 年 8 月 21 日に公開

ブラウズ：370

How to Prevent Speaker Feedback in Speech Transcription Using Web Audio API

Assembly.ai 文字起こしエンジンをフロントエンドの騒音の大きいフロントエンドに接続するために、最近理解する必要があったことがもう 1 つありました。

私が試したことは次のとおりです:

エコーキャンセルを使用してマイクへのアクセスをリクエストします。
Web Audio API を使用してオーディオ処理チェーンをセットアップします。
この設定を音声認識と統合します。
追加のオーディオ処理に DynamicsCompressorNode を利用します。

ステップ 1: エコーキャンセルを使用してマイクアクセスを要求する

最初のステップは、エコーキャンセルを有効にしてマイクへのアクセスを要求することです。この機能はほとんどの最新ブラウザに組み込まれており、スピーカーからのフィードバックを軽減するのに役立ちます。

async function getMicrophoneStream() {
    const constraints = {
        audio: {
            echoCancellation: true,
            noiseSuppression: true,
            autoGainControl: true
        }
    };

    try {
        const stream = await navigator.mediaDevices.getUserMedia(constraints);
        return stream;
    } catch (err) {
        console.error('Error accessing the microphone', err);
        return null;
    }
}

説明

制約: エコーキャンセル、ノイズ抑制、自動ゲイン制御を有効にするオーディオ制約を指定します。
エラー処理: ユーザーがアクセスを拒否した場合、またはその他の問題がある場合、エラーを捕捉してログに記録します。

ステップ 2: Web オーディオ API ノードをセットアップする

次に、オーディオストリームを処理するために Web Audio API を設定します。これには、AudioContext の作成と、DynamicsCompressorNode を含むさまざまなノードの接続が含まれます。

async function setupAudioProcessing(stream) {
    const audioContext = new AudioContext();
    const source = audioContext.createMediaStreamSource(stream);

    // Create a DynamicsCompressorNode for additional processing
    const compressor = audioContext.createDynamicsCompressor();
    compressor.threshold.setValueAtTime(-50, audioContext.currentTime); // Example settings
    compressor.knee.setValueAtTime(40, audioContext.currentTime);
    compressor.ratio.setValueAtTime(12, audioContext.currentTime);
    compressor.attack.setValueAtTime(0, audioContext.currentTime);
    compressor.release.setValueAtTime(0.25, audioContext.currentTime);

    // Connect nodes
    source.connect(compressor);
    compressor.connect(audioContext.destination);

    return { audioContext, source, compressor };
}

説明

AudioContext: オーディオ環境を表します。
MediaStreamSource: マイクストリームをオーディオコンテキストに接続します。
DynamicsCompressorNode: オーディオ信号のダイナミックレンジを低減し、バックグラウンドノイズとフィードバックの管理に役立ちます。

ステップ 3: 音声認識との統合

最後に、音声処理セットアップを Web Speech API と統合して、音声認識を実行します。

async function startSpeechRecognition() {
    const stream = await getMicrophoneStream();
    if (!stream) return;

    const { audioContext, source, compressor } = await setupAudioProcessing(stream);

    const recognition = new (window.SpeechRecognition || window.webkitSpeechRecognition)();
    recognition.continuous = true;
    recognition.interimResults = true;

    recognition.onresult = (event) => {
        for (let i = event.resultIndex; i  {
        console.error('Speech recognition error', event.error);
    };

    recognition.start();

    // Handle audio context resume if needed
    if (audioContext.state === 'suspended') {
        audioContext.resume();
    }

    return recognition;
}

// Start the speech recognition process
startSpeechRecognition();

説明

音声認識セットアップ: 継続的および暫定的な音声認識用に Web Speech API をセットアップしました。
イベント処理: 認識結果とエラーを処理するために、onresult イベントと onerror イベントを処理します。
認識の開始: 音声認識プロセスを開始し、音声コンテキストが中断されていないことを確認します。

これがお役に立てば幸いです。

コーディングを楽しんでください!

ティム

リリースステートメントこの記事は次の場所に転載されています: https://dev.to/fosteman/how-to-prevent-speaker-フィードバック-in-speech-transcription-using-web-audio-api-2da4?1 侵害がある場合は、 Study_golang@163 .comdelete に連絡してください

最新のチュートリアルもっと>

PHP Future：適応と革新
PHPの将来は、新しいテクノロジーの傾向に適応し、革新的な機能を導入することで達成されます。1）クラウドコンピューティング、コンテナ化、マイクロサービスアーキテクチャに適応し、DockerとKubernetesをサポートします。 2）パフォーマンスとデータ処理の効率を改善するために、JITコンパイ...

プログラミング 2025-07-17に投稿されました
PostgreSQLの各一意の識別子の最後の行を効率的に取得するにはどうすればよいですか？
postgresql：各一意の識別子の最後の行を抽出します。次のデータを検討してください： select distinct on (id) id, date, another_info from the_table order by id, date desc; データセット内の一...

プログラミング 2025-07-17に投稿されました
Pythonの理解を使用して辞書を効率的に作成するにはどうすればよいですか？
python辞書の理解 Pythonでは、辞書の概念は新しい辞書を生成するための簡潔な方法を提供します。それらはリストの概念に似ていますが、いくつかの顕著な違いがあります。キーと値を明示的に指定する必要があります。たとえば、 d = {n：n ** 2の範囲（5）} これは、0から4の...

プログラミング 2025-07-17に投稿されました
名前空間コロンを使用したPHP SimplexML解析XMLメソッド
XMLをphp simplexmlは、XMLをコロンと比較するXMLを接続するXMLを接続した場合、XML要素を含むXMLを解析するときに困難に遭遇します。この問題は、simplexmlがデフォルトの名前空間から逸脱するXML構造を処理できないために発生します。例： $ xml ...

プログラミング 2025-07-17に投稿されました
バージョン5.6.5の前にMySQLのタイムスタンプ列を使用してcurrent_timestampを使用することの制限は何でしたか？
の制限current_timestampがデフォルトまたは5.6.5より前のmysqlバージョンのcurrent_timestampの更新条項の制限は歴史的に、5.6.5以前のmysqlバージョンでは、デフォルトの列のみを制限しました。 current_timestamp句。この制限は、20...

プログラミング 2025-07-17に投稿されました
CSSは、属性値に基づいてHTML要素を見つけることができますか？
をCSS の属性値でHTML要素をターゲットとするCSSのターゲティング、以下の例に示すように、特定の属性に基づいてターゲット要素をターゲットにすることが可能です： [型]入力[型]入力[タイプ] { フォントファミリー：コンソラ。 } input[type=text] { ...

プログラミング 2025-07-17に投稿されました
PHPとC ++関数の過負荷処理の違い
PHP関数の過負荷：cの観点から謎を解き明かす PHPの領域に挑戦する経験豊富なC開発者として、関数過負荷の概念に遭遇するかもしれません。この概念は、Cではありふれたものですが、PHPでユニークな課題を提起しています。 PHP関数の過負荷の複雑さを掘り下げて、それが提供する可能性を掘り下げ...

プログラミング 2025-07-17に投稿されました
入力：なぜ「警告：mysqli_query（）がパラメーター1がmysqliであると予想し、リソースが与えられた「エラーが発生し、それを修正する方法」出力：エラーを解決するための分析と修正「警告：mysqli_query（）パラメーターは、リソースの代わりにmysqliである必要があります」
mysqli_query（）は、パラメーター1がmysqliであることを期待しています。発生する可能性があります。このエラーは、最初のパラメーターのタイプと予想されるリソースタイプとの間の不一致を示します。これらの2つの拡張機能は交換可能ではなく、一緒に使用することはできません。 MySQ...

プログラミング 2025-07-17に投稿されました
MySQLの2つの条件に基づいて行を効率的に挿入または更新する方法は？
2つの条件で挿入または更新する問題説明：既存の行一致が見つかった場合。この強力な機能により、一致する行が存在しない場合、または一意のキー制約が違反している場合は既存の行を更新する場合、新しい行を挿入することにより、効率的なデータ操作が可能になります。このキーは、テーブル内の一...

プログラミング 2025-07-17に投稿されました
Pythonのリクエストと偽のユーザーエージェントでWebサイトブロックをバイパスする方法は？
Pythonのリクエストと偽のユーザーエージェントでブラウザの動作をシミュレートする方法これは、Webサイトが実際のブラウザと自動化されたスクリプトを区別するアンチボット測定を実装できるためです。これらのブロックをバイパスするために、開発者はブラウザの動作を模倣してカスタムユーザーエージェ...

プログラミング 2025-07-17に投稿されました
Pythonで変動値を検出するために「if」の代わりに「試行」を使用するのはいつですか？
を使用して、「try」vs. "を使用して、python で変数値をテストするために、変数が処理前に値を持っているかどうかを確認する必要がある状況があります。このジレンマは、「if」または「try」コンストラクトを使用するかどうかを決定するときに発生します。あなたの例では、「if」...

プログラミング 2025-07-17に投稿されました
なぜ `body {margin：0; } `常にCSSの上限を削除しますか？
css の扱います。多くの場合、「body {margin：0;}」などの提供されたコードは、目的の結果を生成しません。これは、コンテンツの親要素が正のパディング値を持っている場合に発生する可能性があります。特定のマージンの問題に対処することをお勧めします。親要素にパディングがある場合...

プログラミング 2025-07-17に投稿されました
$最大カウントを見つけるときにmysqlで\ "無効なグループ関数の使用を解決する方法\"エラーは？$
最大カウントを見つけるときにmysqlで\ "無効なグループ関数の使用を解決する方法\"エラーは？
mysql を使用して最大カウントを取得する方法mysqlでは、次のコマンドを使用して特定の列によってグループ化された値の最大値を見つけようとする際に問題に遭遇する可能性があります。 emp1グループからmax（count（*））を名前で選択します。エラー1111（HY000）：グル...

プログラミング 2025-07-17に投稿されました
なぜLambdaの式には、Javaの「最終」または「有効な最終」変数が必要なのですか？
lambda式には、「最終」または「効果的に最終」変数「エラーメッセージ」「ラムダ式で使用される変数は、最終または効果的に最終的に」を示すことを示すラムダ式または最終的な領域で使用される可能性があることを示すことが示されます。 final。 //コードがありません ca...

プログラミング 2025-07-17に投稿されました
オブジェクトがPythonに特定の属性を持っているかどうかを確認する方法は？
メソッドオブジェクト属性の存在を決定するメソッドこの問い合わせは、オブジェクト内の特定の属性の存在を検証する方法を求めています。未定義のプロパティにアクセスしようとする試みがエラーを提起する次の例を考えてみましょう： >>> a = SomeClass() >&g...

プログラミング 2025-07-17に投稿されました