Google Speech to Text による音声からテキストへの入力

表紙 > プログラミング > Google Speech to Text による音声からテキストへの入力

Google Speech to Text による音声からテキストへの入力

2024 年 11 月 1 日に公開

ブラウズ：626

Audio to Text Input via Google Speech to Text

この記事では、次のトピックについて検討します

navigator.mediaDevices.getUserMedia ブラウザ API
Google 音声認識 API

まず、startRecording、stopRecording、オーディオ Blob の作成、エラー処理などのすべての処理を行う反応フックを作成します。

本題に入る前に、他に注意すべきことがいくつかあります

それを超えると対話が入力としてみなされる最小デシベル、例: -35db (単なる乱数)
ユーザーが入力を停止したことを示す一時停止の長さ (例: 2000ms)

const VOICE_MIN_DECIBELS = -35
const DELAY_BETWEEN_DIALOGUE = 2000

フックに useAudioInput.ts という名前を付けます。navigator.mediaDevices.getUserMedia、MediaRecorder、AudioContext などのブラウザ API を使用することになります。 AudioContext は、入力オーディオが入力としてみなされるために必要な最小デシベルより高いかどうかを識別するのに役立ちます。そのため、次の変数とプロパティから始めます

const defaultConfig = {
    audio: true
};

type Payload = Blob;

type Config = {
    audio: boolean;
    timeSlice?: number
    timeInMillisToStopRecording?: number
    onStop: () => void;
    onDataReceived: (payload: Payload) => void
};

export const useAudioInput = (config: Config = defaultConfig) => {
    const mediaChunks = useRef([]);
    const [isRecording, setIsRecording] = useState(false);
    const mediaRecorder = useRef(null);
    const [error, setError] = useState(null);
    let requestId: number;
    let timer: ReturnType;

    const createBlob = () => {
      const [chunk] = mediaChunks.current;
      const blobProperty = { type: chunk.type };
      return new Blob(mediaChunks.current, blobProperty)
    }
  ...
}

上記のコードでは、入力 BLOB を保持する変数として mediaChunks を使用し、navigator.mediaDevices.getUserMedia からの入力としてストリームを受け取る新しい MediaRecorder のインスタンスを持つために mediaRecorder を使用します。次に、getUserMedia が利用できない場合に対処しましょう

...
useEffect(() => {
        if(!navigator.mediaDevices || !navigator.mediaDevices.getUserMedia) {
            const notAvailable = new Error('Your browser does not support Audio Input')
            setError(notAvailable)
        }

    },[]);
...

setupMediaRecorder、setupAudioContext、onRecordingStart、onRecordingActive、startRecording、stopRecording などのさまざまな関数で構成されるフックの実際の機能の作成を開始します。

const onRecordingStart = () => mediaChunks.current = [];

const onRecordingActive = useCallback(({data}: BlobEvent) => {
        if(data) {
            mediaChunks.current.push(data);
            config?.onDataReceived?.(createBlob())
        }
    },[config]);

const startTimer = () => {
        timer = setTimeout(() => {
            stopRecording();
        }, config.timeInMillisToStopRecording)
    };

const setupMediaRecorder = ({stream}:{stream: MediaStream}) => {
        mediaRecorder.current = new MediaRecorder(stream)
        mediaRecorder.current.ondataavailable = onRecordingActive
        mediaRecorder.current.onstop = onRecordingStop
        mediaRecorder.current.onstart = onRecordingStart
        mediaRecorder.current.start(config.timeSlice)

    };

 const setupAudioContext = ({stream}:{stream: MediaStream}) => {
        const audioContext = new AudioContext();
        const audioStreamSource = audioContext.createMediaStreamSource(stream);
        const analyser = audioContext.createAnalyser();

        analyser.minDecibels = VOICE_MIN_DECIBELS;

        audioStreamSource.connect(analyser);
        const bufferLength = analyser.frequencyBinCount;
        const domainData = new Uint8Array(bufferLength)

        return {
            domainData,
            bufferLength,
            analyser
        }
    };

const startRecording = async () => {
        setIsRecording(true);

        await navigator.mediaDevices
            .getUserMedia({
                audio: config.audio
            })
            .then((stream) => {
                setupMediaRecorder({stream});
                if(config.timeSlice) {
                    const { domainData, analyser, bufferLength } = setupAudioContext({ stream });
                    startTimer()
                }
            })
            .catch(e => {
                setError(e);
                setIsRecording(false)
            })
    };



    const stopRecording = () => {
        mediaRecorder.current?.stop();

        clearTimeout(timer);
        window.cancelAnimationFrame(requestId);

        setIsRecording(false);
        onRecordingStop()
    };

    const createBlob = () => {
        const [chunk] = mediaChunks.current;
        const blobProperty = { type: chunk.type };
        return new Blob(mediaChunks.current, blobProperty)
    }

    const onRecordingStop = () => config?.onStop?.();

上記のコードでフックはほぼ完了しています。唯一の保留中のことは、ユーザーが話し始めたかどうかを識別することです。2 に対する入力がない場合、待機時間として DELAY_BETWEEN_DIALOGUE を使用します。秒後、ユーザーが話すのをやめ、音声からテキストへのエンドポイントに到達すると想定します。

...
const detectSound = ({ 
        recording,
        analyser,
        bufferLength,
        domainData
    }: {
        recording: boolean
        analyser: AnalyserNode
        bufferLength: number
        domainData: Uint8Array
    }) => {
        let lastDetectedTime = performance.now();
        let anySoundDetected = false;

        const compute = () => {
            if (!recording) {
                return;
            }

            const currentTime = performance.now();

            const timeBetweenTwoDialog =
                anySoundDetected === true && currentTime - lastDetectedTime > DELAY_BETWEEN_DIALOGUE;

            if (timeBetweenTwoDialog) {
                stopRecording();

                return;
            }

            analyser.getByteFrequencyData(domainData);

            for (let i = 0; i  0) {
                    anySoundDetected = true;
                    lastDetectedTime = performance.now();
                }
            }

            requestId = window.requestAnimationFrame(compute);
        };

        compute();

    }
...

const startRecording = async () => {
 ... 
  detectSound()
 ... 
}

上記のコードでは、requestAnimationFrame を使用してユーザーのオーディオ入力を検出しています。これでフックが完了し、さまざまな場所でフックの使用を開始できるようになります。

例えば

  const onDataReceived = async (data: BodyInit) => {
    const rawResponse = await fetch('https://backend-endpoint', {
      method: 'POST',
      body: data
    });
    const response = await rawResponse.json();

    setText(response)
  };

  const { isRecording, startRecording, error } = useAudioInput({
    audio: true,
    timeInMillisToStopRecording: 2000,
    timeSlice: 400,
    onDataReceived
  })

2 番目の部分は、Google speech to text API と通信できるノードサーバーを接続することです。ノード側の作成時に参照したドキュメントを添付しました。
https://codelabs.developers.google.com/codelabs/cloud-speech-text-node.

// demo node server which connects with google speech to text api endpoint

const express = require('express');
const cors = require('cors');

const speech = require('@google-cloud/speech');

const client = new speech.SpeechClient();

async function convert(audioBlob) {
  const request = {
    config: {
      encoding: 'WEBM_OPUS', // Ensure this matches the format of the audio being sent
      sampleRateHertz: 48000, // This should match the sample rate of your recording
      languageCode: 'en-US'
    },
    audio: {
      content: audioBlob
    }
  };

  const [response] = await client.recognize(request);

  const transcription = response.results
    .map(result => result.alternatives[0].transcript)
    .join('\n');
  return transcription;
}

const app = express();

app.use(cors())
app.use(express.json());

app.post('/upload', express.raw({ type: '*/*' }), async (req, res) => {
    const audioBlob = req.body;

    const response = await convert(audioBlob);

    res.json(response);
});

app.listen(4000,'0.0.0.0', () => {
  console.log('Example app listening on port 4000!');
});

この記事では、音声コンテンツまたは blob を Google speech to text エンドポイントに送信する方法について説明しましたが、コンテンツの代わりに blob URI を送信することもできます。唯一の変更はペイロードです

// sending url as part of audio object to speech to text api 
...
audio: {url: audioUrl} or audio: {content: audioBlob}
...

記事に関連するコードはGithubにあります。

リリースステートメントこの記事は次の場所に転載されています: https://dev.to/shubhadip/audio-to-text-input-via-google-speech-to-text-4ob0?1 侵害がある場合は、[email protected] までご連絡ください。それを削除するには

最新のチュートリアルもっと>

データ挿入時の「一般エラー: 2006 MySQL サーバーが消えました」を修正するにはどうすればよいですか?
レコードの挿入中に「一般エラー: 2006 MySQL サーバーが消えました」を解決する方法はじめに:MySQL データベースにデータを挿入すると、「一般エラー: 2006 MySQL サーバーが消えました。」というエラーが発生することがあります。このエラーは、通常、MySQL 構成内の 2 つの変...

プログラミング 2025-04-01に投稿
Javaの「DD/MM/YYYY HH：MM：SS.SS」形式で現在の日付と時刻を正しく表示するにはどうすればよいですか？
「dd/mm/yyyy hh：mm：ss.ss」形式で現在の日付と時刻を表示する方法。異なるフォーマットパターンを持つさまざまなSimpleDateFormatインスタンスの使用にあります。 java.text.simpledateformat; java.util.calendarをインポ...

プログラミング 2025-04-01に投稿
CSSを使用してChromeとFirefoxのコンソール出力を着色できますか？
javaScriptコンソールの色の表示は、クロムのコンソールを使用してエラー用の赤、警告用のオレンジ、コンソール用グリーンなどの色のテキストを表示することは可能です。メッセージ？回答はい、CSSを使用して、ChromeとFirefox（バージョン31以降）のコンソールに表示さ...

プログラミング 2025-04-01に投稿
JavaScriptで複数の変数を宣言する方法はより保守可能ですか？
javascriptの複数の変数を宣言する：2つの方法を調査する javascriptでは、開発者はしばしば複数の変数を宣言する必要性に遭遇します。これの2つの一般的なアプローチは次のとおりです。 var variable2 = "Testing ..."; var...

プログラミング 2025-04-01に投稿
Node-MYSQLを使用して単一のクエリで複数のSQLステートメントを実行するにはどうすればよいですか？
node-mysql in node.jsでのマルチステートメントクエリサポート、ノード-Mysqlパッケージを使用してnode-mysqlを使用してnode-mysqlを使用して、1つのクエリを使用してnode-mysqlの記録を使用して、1つのクエリで複数のsqlステートメントを...

プログラミング 2025-04-01に投稿
PDOパラメーターを使用してクエリのように正しく使用する方法は？
を使用してpdo PDOで同様のクエリを実装しようとすると、以下のクエリのような問題に遭遇する可能性があります： $query = "SELECT * FROM tbl WHERE address LIKE '%?%' OR address LIKE '%?%'";...

プログラミング 2025-04-01に投稿
decimal.parse（）を使用して指数表記で数値を解析する方法は？
指数表記からの数字を解析する場合、decimal.parse（ "1.2345e-02"）を使用して指数表記で表現された文字列を解析しようとすると、エラーが発生します。これは、デフォルトの解析方法が指数表記法を認識しないためです。次の例に示すように、numberSty...

プログラミング 2025-04-01に投稿
PHPの配列からランダムな要素をどのように抽出しますか？
配列からのランダム選択は、配列からランダムなアイテムを取得することができます。次の配列を検討してください： $items = [523, 3452, 334, 31, 5346]; この配列からランダムなアイテムを取得するために、array_rand（）関数を利用することは効果的なソリューシ...

プログラミング 2025-04-01に投稿
GOコンパイラでコンパイルの最適化をカスタマイズするにはどうすればよいですか？
goコンパイラのコンピレーション最適化のカスタマイズGOのデフォルトのコンパイルプロセスは、特定の最適化戦略に従います。ただし、ユーザーは特定の要件に対してこれらの最適化を調整する必要がある場合があります。これは、コンパイラが事前に定義されたヒューリスティックに基づいて最適化を自動的に...

プログラミング 2025-04-01に投稿
なぜsqlalchemyフィルター条項で「flake8」はブールの比較にフラグを立てるのですか？
flake8 Flake8 Flake8フラグをフィルター節のブール比較 SQLのブール比較に基づいてクエリ結果をフィルタリングしようとすると、開発者は「==」の使用に関してFLAKE8から警告を発する可能性があります。一般に、「condがfalse」または「condではない場合：」を...

プログラミング 2025-04-01に投稿
PHPでCurlで生のポストリクエストを送信する方法は？
php を使用して生のポストリクエストを送信する方法phpでは、curlはhttpリクエストを送信するための人気のライブラリです。この記事では、Curlを使用して、データがエンコードされていない形式で送信される生のPOSTリクエストを実行する方法を示します。次に、次のオプションを構成し...

プログラミング 2025-04-01に投稿
Google APIから最新のjQueryライブラリを取得する方法は？
Google Apis から最新のjQueryライブラリを取得します。最新バージョンを取得するために、以前は特定のバージョン番号を使用する代替手段がありました。これは、次の構文を使用するものでした。 /latest/jquery.js .jquery.com/jQuery-latest...

プログラミング 2025-04-01に投稿
PHPのUnicode文字列からURLに優しいナメクジを効率的に生成するにはどうすればよいですか？
効率的なナメクジ生成のための関数を作成するスラッグの作成、URLで使用されるユニコード文字列の単純化された表現は挑戦的な作業になります。この記事では、スラッグを効率的に生成し、特殊文字と非ASCII文字をURLに優しい形式に変換するための簡潔なソリューションを紹介します。一連の操作を使用...

プログラミング 2025-04-01に投稿
マウスクリック時にDiv内のすべてのテキストをプログラム的に選択するにはどうすればよいですか？
マウスクリックでプログラムをプログラム的に選択する質問テキストコンテンツのdiv要素が与えられた場合、ユーザーは1つのマウスクリックでdiv内のテキスト全体をプログラム的に選択できますか？これにより、ユーザーは選択したテキストを簡単にドラッグアンドドロップしたり、直接コピーしたりできます。...

プログラミング 2025-04-01に投稿
PHPのファイルシステム機能でUTF-8ファイル名を処理するにはどうすればよいですか？
PHPのファイルシステム関数のUTF-8ファイル名を処理する PHPのMKDIR関数を使用してUTF-8文字を含むフォルダーを作成するとき、に遭遇するwindows explorerに遭遇する可能性があります。 urlエンコードファイル名この問題を解決するには、urlencod...

プログラミング 2025-04-01に投稿