Google Speech to Text를 통한 오디오-텍스트 입력

첫 장 > 프로그램 작성 > Google Speech to Text를 통한 오디오-텍스트 입력

Google Speech to Text를 통한 오디오-텍스트 입력

2024-11-01에 게시됨

검색:844

Audio to Text Input via Google Speech to Text

이 문서에서는 다음 주제를 살펴볼 것입니다.

navigator.mediaDevices.getUserMedia 브라우저 API
Google 음성을 텍스트 API로 변환

startRecording, stopRecording, Audio Blob 생성, 오류 처리 등과 같은 모든 작업을 수행하는 반응 후크를 만드는 것부터 시작하겠습니다.

본론에 들어가기 전에 처리해야 할 일이 몇 가지 더 있습니다.

대화를 입력으로 간주하는 최소 데시벨(예: -35db(임의의 숫자))
사용자가 입력을 중지했음을 나타내는 일시 중지 시간은 얼마나 길어야 합니까(예: 2000ms)

const VOICE_MIN_DECIBELS = -35
const DELAY_BETWEEN_DIALOGUE = 2000

후크 이름을 useAudioInput.ts로 지정하고 navigator.mediaDevices.getUserMedia, MediaRecorder 및 AudioContext와 같은 브라우저 API를 사용하겠습니다. AudioContext는 입력 오디오가 입력으로 간주되는 데 필요한 최소 데시벨보다 높은지 여부를 식별하는 데 도움이 되므로 다음 변수 및 소품
으로 시작합니다.

const defaultConfig = {
    audio: true
};

type Payload = Blob;

type Config = {
    audio: boolean;
    timeSlice?: number
    timeInMillisToStopRecording?: number
    onStop: () => void;
    onDataReceived: (payload: Payload) => void
};

export const useAudioInput = (config: Config = defaultConfig) => {
    const mediaChunks = useRef([]);
    const [isRecording, setIsRecording] = useState(false);
    const mediaRecorder = useRef(null);
    const [error, setError] = useState(null);
    let requestId: number;
    let timer: ReturnType;

    const createBlob = () => {
      const [chunk] = mediaChunks.current;
      const blobProperty = { type: chunk.type };
      return new Blob(mediaChunks.current, blobProperty)
    }
  ...
}

위 코드에서는 mediaChunk를 변수로 사용하여 입력 blob을 보관하고 mediaRecorder를 사용하여 navigator.mediaDevices.getUserMedia에서 스트림을 입력으로 사용하는 새 MediaRecorder의 인스턴스를 갖습니다. 다음으로 getUserMedia를 사용할 수 없는 경우를 처리해 보겠습니다.

...
useEffect(() => {
        if(!navigator.mediaDevices || !navigator.mediaDevices.getUserMedia) {
            const notAvailable = new Error('Your browser does not support Audio Input')
            setError(notAvailable)
        }

    },[]);
...

setupMediaRecorder, setupAudioContext, onRecordingStart, onRecordingActive, startRecording, stopRecording 등과 같은 다양한 기능으로 구성된 후크의 실제 기능을 작성하기 시작합니다.

const onRecordingStart = () => mediaChunks.current = [];

const onRecordingActive = useCallback(({data}: BlobEvent) => {
        if(data) {
            mediaChunks.current.push(data);
            config?.onDataReceived?.(createBlob())
        }
    },[config]);

const startTimer = () => {
        timer = setTimeout(() => {
            stopRecording();
        }, config.timeInMillisToStopRecording)
    };

const setupMediaRecorder = ({stream}:{stream: MediaStream}) => {
        mediaRecorder.current = new MediaRecorder(stream)
        mediaRecorder.current.ondataavailable = onRecordingActive
        mediaRecorder.current.onstop = onRecordingStop
        mediaRecorder.current.onstart = onRecordingStart
        mediaRecorder.current.start(config.timeSlice)

    };

 const setupAudioContext = ({stream}:{stream: MediaStream}) => {
        const audioContext = new AudioContext();
        const audioStreamSource = audioContext.createMediaStreamSource(stream);
        const analyser = audioContext.createAnalyser();

        analyser.minDecibels = VOICE_MIN_DECIBELS;

        audioStreamSource.connect(analyser);
        const bufferLength = analyser.frequencyBinCount;
        const domainData = new Uint8Array(bufferLength)

        return {
            domainData,
            bufferLength,
            analyser
        }
    };

const startRecording = async () => {
        setIsRecording(true);

        await navigator.mediaDevices
            .getUserMedia({
                audio: config.audio
            })
            .then((stream) => {
                setupMediaRecorder({stream});
                if(config.timeSlice) {
                    const { domainData, analyser, bufferLength } = setupAudioContext({ stream });
                    startTimer()
                }
            })
            .catch(e => {
                setError(e);
                setIsRecording(false)
            })
    };



    const stopRecording = () => {
        mediaRecorder.current?.stop();

        clearTimeout(timer);
        window.cancelAnimationFrame(requestId);

        setIsRecording(false);
        onRecordingStop()
    };

    const createBlob = () => {
        const [chunk] = mediaChunks.current;
        const blobProperty = { type: chunk.type };
        return new Blob(mediaChunks.current, blobProperty)
    }

    const onRecordingStop = () => config?.onStop?.();

위 코드를 사용하면 후크 작업이 거의 완료되었습니다. 유일하게 보류 중인 작업은 사용자가 말을 멈췄는지 여부를 식별하는 것입니다. 2에 대한 입력이 없는 경우 기다릴 시간으로 DELAY_BETWEEN_DIALOGUE를 사용합니다. 초 동안 사용자가 말하기를 중단하고 텍스트 끝점으로 음성을 전달한다고 가정합니다.

...
const detectSound = ({ 
        recording,
        analyser,
        bufferLength,
        domainData
    }: {
        recording: boolean
        analyser: AnalyserNode
        bufferLength: number
        domainData: Uint8Array
    }) => {
        let lastDetectedTime = performance.now();
        let anySoundDetected = false;

        const compute = () => {
            if (!recording) {
                return;
            }

            const currentTime = performance.now();

            const timeBetweenTwoDialog =
                anySoundDetected === true && currentTime - lastDetectedTime > DELAY_BETWEEN_DIALOGUE;

            if (timeBetweenTwoDialog) {
                stopRecording();

                return;
            }

            analyser.getByteFrequencyData(domainData);

            for (let i = 0; i  0) {
                    anySoundDetected = true;
                    lastDetectedTime = performance.now();
                }
            }

            requestId = window.requestAnimationFrame(compute);
        };

        compute();

    }
...

const startRecording = async () => {
 ... 
  detectSound()
 ... 
}

위 코드에서는 requestAnimationFrame을 사용하여 사용자 오디오 입력을 감지합니다. 이로써 후크 작업이 완료되었으며 이제 다양한 위치에서 후크 사용을 시작할 수 있습니다.

예:

  const onDataReceived = async (data: BodyInit) => {
    const rawResponse = await fetch('https://backend-endpoint', {
      method: 'POST',
      body: data
    });
    const response = await rawResponse.json();

    setText(response)
  };

  const { isRecording, startRecording, error } = useAudioInput({
    audio: true,
    timeInMillisToStopRecording: 2000,
    timeSlice: 400,
    onDataReceived
  })

두 번째 부분은 Google 음성과 텍스트 API로 통신할 수 있는 노드 서버를 연결하는 것입니다. 노드 측을 생성하는 동안 참조한 문서를 첨부했습니다.
https://codelabs.developers.google.com/codelabs/cloud-speech-text-node.

// demo node server which connects with google speech to text api endpoint

const express = require('express');
const cors = require('cors');

const speech = require('@google-cloud/speech');

const client = new speech.SpeechClient();

async function convert(audioBlob) {
  const request = {
    config: {
      encoding: 'WEBM_OPUS', // Ensure this matches the format of the audio being sent
      sampleRateHertz: 48000, // This should match the sample rate of your recording
      languageCode: 'en-US'
    },
    audio: {
      content: audioBlob
    }
  };

  const [response] = await client.recognize(request);

  const transcription = response.results
    .map(result => result.alternatives[0].transcript)
    .join('\n');
  return transcription;
}

const app = express();

app.use(cors())
app.use(express.json());

app.post('/upload', express.raw({ type: '*/*' }), async (req, res) => {
    const audioBlob = req.body;

    const response = await convert(audioBlob);

    res.json(response);
});

app.listen(4000,'0.0.0.0', () => {
  console.log('Example app listening on port 4000!');
});

이 문서에서는 오디오 콘텐츠 또는 Blob을 Google 음성으로 텍스트 끝점으로 보내는 방법을 다루었습니다. 또한 콘텐츠 대신 Blob URI를 보낼 수도 있습니다. 유일한 변경 사항은 페이로드입니다.

// sending url as part of audio object to speech to text api 
...
audio: {url: audioUrl} or audio: {content: audioBlob}
...

기사와 관련된 코드는 Github에 있습니다.

릴리스 선언문 이 기사는 https://dev.to/shubhadip/audio-to-text-input-via-google-speech-to-text-4ob0?1에 복제되어 있습니다. 침해가 있는 경우에는 [email protected]으로 문의하시기 바랍니다. 그것을 삭제하려면

최신 튜토리얼 더>

플래시 없이 JavaScript를 사용하여 클라이언트 측에서 이미지 크기를 어떻게 조정할 수 있습니까?
JavaScript를 사용하여 클라이언트 측에서 이미지 크기 조정: 오픈 소스 솔루션오늘날의 웹 개발 환경에서는 이전에 클라이언트 측에서 이미지 크기를 조정하는 것이 바람직한 경우가 많습니다. 서버에 업로드합니다. 이 접근 방식을 사용하면 페이지 로드 시간을 단축하여 ...

프로그램 작성 2024-11-07에 게시됨
통신: 데이터 가져오기 패턴
중요한 발표! 저는 프런트엔드 시스템 디자인에 대한 매일의 학습 여정을 시작했습니다. 그리고 각 모듈의 통찰력을 블로그에서 공유하겠습니다. 자, 이제 시작이고 앞으로 더 많은 것이 있습니다! 이 블로그에서는 짧은 폴링, 긴 폴링, WebSocket, 서버 전송 이벤트(...

프로그램 작성 2024-11-07에 게시됨
f일차 #daysofMiva 코딩 챌린지: JavaScript를 HTML 파일에 연결.
안녕하세요 여러분. 이 글을 늦게 올려서 미안하지만 안 하는 것보다는 늦은 게 낫겠죠?. 아무튼 오늘의 기사를 본격적으로 살펴보겠습니다. Javascript를 HTML 파일에 연결하는 이유. 자바스크립트는 브라우저에서 실행되며 웹페이지의 콘텐츠, 구조, ...

프로그램 작성 2024-11-07에 게시됨
내 canvas.toDataURL()이 내 이미지를 저장하지 않는 이유는 무엇입니까?
canvas.toDataURL()의 이미지 저장 문제 해결canvas.toDataURL()을 활용하여 캔버스를 이미지로 저장하려고 할 때 , 상황에 접근하는 방법은 다음과 같습니다.문제 및 해결 방법문제:다음 캔버스 이미지를 저장하는 코드이지만 작동하지 않습니다. //...

프로그램 작성 2024-11-07에 게시됨
Node.js의 새로운 기능
TL;DR: ECMAScript 모듈 지원 및 V8 엔진 업데이트를 포함하여 Node.js 22의 주요 기능을 살펴보겠습니다. 이 릴리스에는 향상된 성능과 실시간 통신을 위해 Maglev 컴파일러와 내장 WebSocket 클라이언트가 도입되었습니다. 테스트, 디버깅 및...

프로그램 작성 2024-11-07에 게시됨
MongoDB의 independent() 작업 이해: 실용 가이드
MongoDB의 independent() 작업은 컬렉션 전체의 지정된 필드에서 고유한 값을 검색하는 강력한 도구입니다. 이 가이드는 구별()의 기능, 이를 사용하는 이유와 시기, MongoDB 쿼리에서 이를 효과적으로 구현하는 방법을 이해하는 데 도움이 됩니다. ...

프로그램 작성 2024-11-07에 게시됨
비교에서는 "0"이 거짓으로 작동하지만 JavaScript의 "if" 문에서는 True로 작동하는 이유는 무엇입니까?
JavaScript의 역설 풀기: 비교에서는 "0"이 거짓이지만 If 문에서는 거짓인 이유JavaScript에서 기본 요소 " 0"은 개발자에게 퍼즐을 제시합니다. "=="와 같은 논리 연산자는 "0&quo...

프로그램 작성 2024-11-07에 게시됨
GitHub Copilot에는 특이한 점이 있습니다.
저는 지난 4개월 동안 프로덕션 코드베이스와 함께 GitHub Copilot을 사용해 왔으며 다음은 제 생각입니다. 좋은 점: 복잡한 코드 설명: 까다로운 코드 조각이나 비즈니스 로직을 분석하고 적절하게 설명하는 데 훌륭했습니다. 단위 테스트: 단위 테스트를 작성하고 ...

프로그램 작성 2024-11-07에 게시됨
정적 또는 인스턴스화 클래스: 언제 어느 것을 선택해야 합니까?
정적 클래스와 인스턴스화 클래스 간의 결정: 개요PHP에서 소프트웨어 애플리케이션을 설계할 때 개발자는 종종 다음 중 하나를 선택해야 하는 딜레마에 직면합니다. 정적 클래스 또는 인스턴스화된 개체. 이 결정은 프로그램의 구조, 성능 및 테스트 가능성에 중요한 영향을 미...

프로그램 작성 2024-11-07에 게시됨
⚠️ JavaScript에서 `var` 사용의 숨겨진 위험: 이제 다음 단계로 넘어가야 할 때인 이유
var 키워드는 수년 동안 JavaScript에서 변수를 선언하는 기본 방법이었습니다. 그러나 코드에서 예상치 못한 동작을 초래할 수 있는 몇 가지 단점과 함정이 있습니다. let 및 const와 같은 최신 대안은 이러한 많은 문제를 해결하므로 대부분의 경우 변수 선언...

프로그램 작성 2024-11-07에 게시됨
$PDO::MYSQL_ATTR_INIT_COMMAND에 \"SET CHARACTER SET utf8\"이 필요합니까?$
PDO::MYSQL_ATTR_INIT_COMMAND에 \"SET CHARACTER SET utf8\"이 필요합니까?
"PDO::MYSQL_ATTR_INIT_COMMAND"를 사용하는 PDO에서 "SET CHARACTER SET utf8"이 필요합니까?PHP 및 MySQL에서 "SET NAMES utf8" 및 "SET CH...

프로그램 작성 2024-11-07에 게시됨
Password_Hash 함수를 사용할 때 해시 값이 달라지는 이유는 무엇입니까?
Password_Hash 함수의 서로 다른 해시 값 이해보안 인증 시스템을 개발할 때 개발자는 종종password_hash를 사용하여 다양한 비밀번호 해시를 얻는 혼란에 직면합니다. 기능. 이 동작을 명확히 하고 올바른 비밀번호 확인을 보장하기 위해 이 기능의 메커니즘...

프로그램 작성 2024-11-07에 게시됨
구글과의 경쟁이 미친 짓이 아닌 이유
안녕하세요 여러분, 저는 Litlyx의 CEO인 Antonio입니다. 우리는 거대 기업들과 맞서고 있습니다! Microsoft Clarity, Google Analytics, MixPanel... 이들은 분석 분야의 주요 업체입니다. 사람들은 스타트업이 이렇게 큰 이름...

프로그램 작성 2024-11-07에 게시됨
Java 스트림에서 객체 목록을 선택 항목으로 효율적으로 변환하는 방법은 무엇입니까?
Java 8의 Optional 및 Stream::FlatMap으로 간결해지기Java 8 스트림으로 작업할 때 List을 Optional로 변환 및 첫 번째 Other 값을 효율적으로 추출하는 것은 어려울 수 있습니다. flatMap에는 일반적으로 반환 스트림이 필요하...

프로그램 작성 2024-11-07에 게시됨
프런트엔드 개발 실패 방지: 깔끔한 코드 작성을 위한 입증된 사례
소개 풀거나 확장하는 것이 불가능해 보이는 지저분한 코드에 압도된 적이 있습니까? 만약 그렇다면, 당신은 혼자가 아닙니다. 많은 개발자는 프로젝트의 장기적인 성공과 확장성에 필수적인 깔끔한 코드베이스를 유지하는 데 어려움을 겪고 있습니다. 코드를 관리 ...

프로그램 작성 2024-11-07에 게시됨