Google वाक् से पाठ के माध्यम से ऑडियो से पाठ इनपुट

मुखपृष्ठ > प्रोग्रामिंग > Google वाक् से पाठ के माध्यम से ऑडियो से पाठ इनपुट

Google वाक् से पाठ के माध्यम से ऑडियो से पाठ इनपुट

2024-11-01 को प्रकाशित

ब्राउज़ करें:619

Audio to Text Input via Google Speech to Text

इस लेख में हम निम्नलिखित विषयों पर गौर करेंगे

navigator.mediaDevices.getUserMedia ब्राउज़र एपीआई
टेक्स्ट एपीआई के लिए गूगल स्पीच

हम रिएक्ट हुक बनाकर शुरुआत करेंगे जो स्टार्ट रिकॉर्डिंग, स्टॉप रिकॉर्डिंग, ऑडियो ब्लॉब बनाना, त्रुटि प्रबंधन आदि जैसे सभी काम करेगा।

हुक के मांस में जाने से पहले हमें कुछ अन्य बातों का ध्यान रखना होगा

न्यूनतम डेसिबल जिसके ऊपर हम किसी संवाद को इनपुट मानेंगे, उदाहरण के लिए -35db (सिर्फ एक यादृच्छिक संख्या)
कितनी देर का विराम होना चाहिए जो इंगित करेगा कि उपयोगकर्ता ने इनपुट बंद कर दिया है, उदाहरण के लिए 2000 एमएस

const VOICE_MIN_DECIBELS = -35
const DELAY_BETWEEN_DIALOGUE = 2000

आइए अपने हुक का नाम उपयोगऑडियोइनपुट.ts रखें, हम ब्राउज़र एपीआई जैसे नेविगेटर.मीडियाडिवाइस.गेटयूजरमीडिया, मीडियारिकॉर्डर और ऑडियोकॉन्टेक्स्ट का उपयोग करेंगे। AudioContext हमें यह पहचानने में मदद करेगा कि क्या इनपुट ऑडियो न्यूनतम डेसिबल से अधिक है जो इसे इनपुट के रूप में मानने के लिए आवश्यक है, इसलिए हम निम्नलिखित वेरिएबल्स और प्रॉप्स के साथ शुरुआत करेंगे

const defaultConfig = {
    audio: true
};

type Payload = Blob;

type Config = {
    audio: boolean;
    timeSlice?: number
    timeInMillisToStopRecording?: number
    onStop: () => void;
    onDataReceived: (payload: Payload) => void
};

export const useAudioInput = (config: Config = defaultConfig) => {
    const mediaChunks = useRef([]);
    const [isRecording, setIsRecording] = useState(false);
    const mediaRecorder = useRef(null);
    const [error, setError] = useState(null);
    let requestId: number;
    let timer: ReturnType;

    const createBlob = () => {
      const [chunk] = mediaChunks.current;
      const blobProperty = { type: chunk.type };
      return new Blob(mediaChunks.current, blobProperty)
    }
  ...
}

उपरोक्त कोड में हम इनपुट ब्लॉब को होल्ड करने के लिए वेरिएबल के रूप में मीडियाचंक्स का उपयोग करेंगे और नए मीडियारिकॉर्डर का उदाहरण पाने के लिए मीडियारिकॉर्डर का उपयोग करेंगे जो नेविगेटर.मीडियाडिवाइसेज.गेटयूजरमीडिया से इनपुट के रूप में स्ट्रीम लेता है। अब आइए उन मामलों पर ध्यान दें जहां getUserMedia उपलब्ध नहीं है

...
useEffect(() => {
        if(!navigator.mediaDevices || !navigator.mediaDevices.getUserMedia) {
            const notAvailable = new Error('Your browser does not support Audio Input')
            setError(notAvailable)
        }

    },[]);
...

हम हुक की वास्तविक कार्यक्षमता लिखना शुरू करेंगे जिसमें सेटअपमीडियारिकॉर्डर, सेटअपऑडियोकॉन्टेक्स्ट, ऑनरिकॉर्डिंगस्टार्ट, ऑनरिकॉर्डिंगएक्टिव, स्टार्टरिकॉर्डिंग, स्टॉपरिकॉर्डिंग आदि जैसे विभिन्न फ़ंक्शन शामिल होंगे।

const onRecordingStart = () => mediaChunks.current = [];

const onRecordingActive = useCallback(({data}: BlobEvent) => {
        if(data) {
            mediaChunks.current.push(data);
            config?.onDataReceived?.(createBlob())
        }
    },[config]);

const startTimer = () => {
        timer = setTimeout(() => {
            stopRecording();
        }, config.timeInMillisToStopRecording)
    };

const setupMediaRecorder = ({stream}:{stream: MediaStream}) => {
        mediaRecorder.current = new MediaRecorder(stream)
        mediaRecorder.current.ondataavailable = onRecordingActive
        mediaRecorder.current.onstop = onRecordingStop
        mediaRecorder.current.onstart = onRecordingStart
        mediaRecorder.current.start(config.timeSlice)

    };

 const setupAudioContext = ({stream}:{stream: MediaStream}) => {
        const audioContext = new AudioContext();
        const audioStreamSource = audioContext.createMediaStreamSource(stream);
        const analyser = audioContext.createAnalyser();

        analyser.minDecibels = VOICE_MIN_DECIBELS;

        audioStreamSource.connect(analyser);
        const bufferLength = analyser.frequencyBinCount;
        const domainData = new Uint8Array(bufferLength)

        return {
            domainData,
            bufferLength,
            analyser
        }
    };

const startRecording = async () => {
        setIsRecording(true);

        await navigator.mediaDevices
            .getUserMedia({
                audio: config.audio
            })
            .then((stream) => {
                setupMediaRecorder({stream});
                if(config.timeSlice) {
                    const { domainData, analyser, bufferLength } = setupAudioContext({ stream });
                    startTimer()
                }
            })
            .catch(e => {
                setError(e);
                setIsRecording(false)
            })
    };



    const stopRecording = () => {
        mediaRecorder.current?.stop();

        clearTimeout(timer);
        window.cancelAnimationFrame(requestId);

        setIsRecording(false);
        onRecordingStop()
    };

    const createBlob = () => {
        const [chunk] = mediaChunks.current;
        const blobProperty = { type: chunk.type };
        return new Blob(mediaChunks.current, blobProperty)
    }

    const onRecordingStop = () => config?.onStop?.();

उपरोक्त कोड के साथ हम हुक के साथ लगभग काम पूरा कर चुके हैं, एकमात्र लंबित चीज यह पहचानना है कि उपयोगकर्ता ने बोलना बंद कर दिया है या नहीं, हम DELAY_BETWEEN_DIALOGUE का उपयोग उस समय के रूप में करेंगे जिसके लिए हम प्रतीक्षा करेंगे, यदि 2 के लिए कोई इनपुट नहीं है कुछ सेकंड में हम मान लेंगे कि उपयोगकर्ता ने बोलना बंद कर दिया है और भाषण को टेक्स्ट एंडपॉइंट पर हिट कर देगा।

...
const detectSound = ({ 
        recording,
        analyser,
        bufferLength,
        domainData
    }: {
        recording: boolean
        analyser: AnalyserNode
        bufferLength: number
        domainData: Uint8Array
    }) => {
        let lastDetectedTime = performance.now();
        let anySoundDetected = false;

        const compute = () => {
            if (!recording) {
                return;
            }

            const currentTime = performance.now();

            const timeBetweenTwoDialog =
                anySoundDetected === true && currentTime - lastDetectedTime > DELAY_BETWEEN_DIALOGUE;

            if (timeBetweenTwoDialog) {
                stopRecording();

                return;
            }

            analyser.getByteFrequencyData(domainData);

            for (let i = 0; i  0) {
                    anySoundDetected = true;
                    lastDetectedTime = performance.now();
                }
            }

            requestId = window.requestAnimationFrame(compute);
        };

        compute();

    }
...

const startRecording = async () => {
 ... 
  detectSound()
 ... 
}

उपरोक्त कोड में हम उपयोगकर्ता ऑडियो इनपुट का पता लगाने के लिए requestAnimationFrame का उपयोग कर रहे हैं, इसके साथ हमने हुक के साथ काम पूरा कर लिया है और अब विभिन्न स्थानों पर हुक का उपयोग शुरू कर सकते हैं।

जैसे

  const onDataReceived = async (data: BodyInit) => {
    const rawResponse = await fetch('https://backend-endpoint', {
      method: 'POST',
      body: data
    });
    const response = await rawResponse.json();

    setText(response)
  };

  const { isRecording, startRecording, error } = useAudioInput({
    audio: true,
    timeInMillisToStopRecording: 2000,
    timeSlice: 400,
    onDataReceived
  })

दूसरा भाग एक नोड सर्वर को वायर करना है जो Google भाषण से टेक्स्ट एपीआई तक संचार कर सकता है, मैंने दस्तावेज़ संलग्न किया है जिसे मैंने चीजों का नोड पक्ष बनाते समय संदर्भित किया था।
https://codelabs.developers.google.com/codelabs/cloud-speech-text-node.

// demo node server which connects with google speech to text api endpoint

const express = require('express');
const cors = require('cors');

const speech = require('@google-cloud/speech');

const client = new speech.SpeechClient();

async function convert(audioBlob) {
  const request = {
    config: {
      encoding: 'WEBM_OPUS', // Ensure this matches the format of the audio being sent
      sampleRateHertz: 48000, // This should match the sample rate of your recording
      languageCode: 'en-US'
    },
    audio: {
      content: audioBlob
    }
  };

  const [response] = await client.recognize(request);

  const transcription = response.results
    .map(result => result.alternatives[0].transcript)
    .join('\n');
  return transcription;
}

const app = express();

app.use(cors())
app.use(express.json());

app.post('/upload', express.raw({ type: '*/*' }), async (req, res) => {
    const audioBlob = req.body;

    const response = await convert(audioBlob);

    res.json(response);
});

app.listen(4000,'0.0.0.0', () => {
  console.log('Example app listening on port 4000!');
});

इस लेख में मैंने ऑडियो सामग्री या ब्लॉब को गूगल स्पीच से टेक्स्ट एंडपॉइंट पर भेजना शामिल किया है, हम सामग्री के बजाय एक ब्लॉब यूरी भी भेज सकते हैं, केवल पेलोड में परिवर्तन होगा

// sending url as part of audio object to speech to text api 
...
audio: {url: audioUrl} or audio: {content: audioBlob}
...

लेख से संबंधित कोड जीथब में मौजूद है।

विज्ञप्ति वक्तव्य इस लेख को पुन: प्रस्तुत किया गया है: https://dev.to/shubhadip/shubhadip/audio-text-next-input-via-google-peech-text-4ob0?1 यदि कोई उल्लंघन है, तो कृपया इसे हटाने के लिए [email protected] से संपर्क करें।

नवीनतम ट्यूटोरियल अधिक>

दशमलव का उपयोग करके घातीय संकेतन में संख्या को कैसे पार्स करें।
] इसका कारण यह है कि डिफ़ॉल्ट पार्सिंग विधि घातीय संकेतन को नहीं पहचानती है। इस तरह के स्ट्रिंग को सफलतापूर्वक पार्स करने के लिए, आपको स्पष्ट रूप से...

प्रोग्रामिंग 2025-04-03 पर पोस्ट किया गया
क्या शुद्ध सीएसएस में एक दूसरे के ऊपर कई चिपचिपे तत्वों को स्टैक किया जा सकता है?
यहाँ: https://webthemez.com/demo/sticky-multi-hroll/index.html केवल मैं एक जावास्क्रिप्ट कार्यान्वयन के बजाय शुद्ध CSS का उपयोग करना पसंद करू...

प्रोग्रामिंग 2025-04-03 पर पोस्ट किया गया
CSS `सामग्री` प्रॉपर्टी का उपयोग करके फ़ायरफ़ॉक्स चित्र क्यों नहीं है?
] यह प्रदान किए गए CSS वर्ग में देखा जा सकता है: । Googlepipic { सामग्री: url ('../../ img/googleplusicon.png'); मार्जिन -टॉप: -6.5%;...

प्रोग्रामिंग 2025-04-03 पर पोस्ट किया गया
Microsoft Visual C ++ दो-चरण टेम्पलेट तात्कालिकता को सही ढंग से लागू करने में विफल क्यों होता है?
तंत्र के कौन से विशिष्ट पहलू अपेक्षित रूप से संचालित करने में विफल होते हैं? हालाँकि, इस बारे में संदेह उत्पन्न होता है कि क्या यह चेक सत्यापित करता ...

प्रोग्रामिंग 2025-04-03 पर पोस्ट किया गया
कैसे regex का उपयोग करके PHP में कुशलता से कोष्ठक के भीतर पाठ निकालें
] एक दृष्टिकोण PHP के स्ट्रिंग हेरफेर कार्यों का उपयोग करने के लिए है, जैसा कि नीचे प्रदर्शित किया गया है: $ फुलस्ट्रिंग = "इस (पाठ) को छोड़क...

प्रोग्रामिंग 2025-04-03 पर पोस्ट किया गया
एक पांडस डेटाफ्रेम कॉलम को डेटटाइम प्रारूप में कैसे परिवर्तित करें और तिथि तक फ़िल्टर करें?
] अस्थायी डेटा के साथ काम करते समय, टाइमस्टैम्प शुरू में तार के रूप में दिखाई दे सकते हैं, लेकिन सटीक विश्लेषण के लिए एक डेटाइम प्रारूप में परिवर्तित ...

प्रोग्रामिंग 2025-04-03 पर पोस्ट किया गया
पायथन पढ़ें CSV फ़ाइल Unicodedecodeerror अल्टीमेट सॉल्यूशन
डिकोड बाइट्स स्थिति 2-3 में: truncated \ uxxxxxxxxx escape यह त्रुटि तब होती है जब CSV फ़ाइल के पथ में विशेष वर्ण होते हैं या यूनिकोड होता है कि पा...

प्रोग्रामिंग 2025-04-03 पर पोस्ट किया गया
कैसे ठीक करें "सामान्य त्रुटि: 2006 MySQL सर्वर डेटा डालते समय दूर चला गया है?
] यह त्रुटि तब होती है जब सर्वर का कनेक्शन खो जाता है, आमतौर पर MySQL कॉन्फ़िगरेशन में दो चर में से एक के कारण। ये चर उस अधिकतम समय को नियंत्रित करते ...

प्रोग्रामिंग 2025-04-03 पर पोस्ट किया गया
मुझे MySQL त्रुटि #1089 क्यों मिल रही है: गलत उपसर्ग कुंजी?
] आइए इस त्रुटि और इसके रिज़ॉल्यूशन की बारीकियों में तल्लीन करें। उपसर्ग कुंजियों को स्ट्रिंग कॉलम की एक विशिष्ट उपसर्ग लंबाई को अनुक्रमित करने के लिए...

प्रोग्रामिंग 2025-04-03 पर पोस्ट किया गया
मैं PHP के फाइलसिस्टम फ़ंक्शंस में UTF-8 फ़ाइल नाम कैसे संभाल सकता हूं?
असंगतता। mkdir ($ dir_name); मूल UTF-8 फ़ाइल नाम को पुनः प्राप्त करने के लिए, urldecode का उपयोग करें। केवल) विंडोज पर, आप UTF-8 फ़ाइल नाम के ...

प्रोग्रामिंग 2025-04-03 पर पोस्ट किया गया
क्या मुझे कार्यक्रम से बाहर निकलने से पहले C ++ में स्पष्ट रूप से ढेर आवंटन को हटाने की आवश्यकता है?
] यह लेख इस विषय में देरी करता है। C मुख्य फ़ंक्शन में, एक गतिशील रूप से आवंटित चर (हीप मेमोरी) के लिए एक सूचक का उपयोग किया जाता है। जैसा कि एप्लिक...

प्रोग्रामिंग 2025-04-03 पर पोस्ट किया गया
Java.net.urlconnection और multivart/फॉर्म-डेटा एन्कोडिंग का उपयोग करके अतिरिक्त मापदंडों के साथ फ़ाइलों को कैसे अपलोड करें?
] यहाँ प्रक्रिया का एक टूटना है: मल्टीपार्ट/फॉर्म-डाटा एन्कोडिंग मल्टीपार्ट/फॉर्म-डेटा को पोस्ट अनुरोधों के लिए डिज़ाइन किया गया है जो बाइनरी ...

प्रोग्रामिंग 2025-04-03 पर पोस्ट किया गया
गो में SQL प्रश्नों का निर्माण करते समय मैं सुरक्षित रूप से पाठ और मूल्यों को कैसे सहमत कर सकता हूं?
दृष्टिकोण जाने में मान्य नहीं है, और मापदंडों को कास्ट करने का प्रयास करने के लिए स्ट्रिंग्स के परिणामस्वरूप बेमेल त्रुटियां होती हैं। यह आपको रनटाइम...

प्रोग्रामिंग 2025-04-03 पर पोस्ट किया गया
फिक्स्ड पोजिशनिंग का उपयोग करते समय 100% ग्रिड-टेम्प्लेट-कॉलम के साथ ग्रिड शरीर से परे क्यों फैलता है?
] फिक्स्ड; class = "स्निपेट-कोड"> । माता-पिता { स्थिति: फिक्स्ड; चौड़ाई: 100%; 6fr; lang-html atrayprint-override ">

प्रोग्रामिंग 2025-04-03 पर पोस्ट किया गया
मैं माउस क्लिक पर एक DIV के भीतर सभी पाठ का चयन कैसे कर सकता हूं?
] This allows users to easily drag and drop the selected text or copy it directly.SolutionTo select the text within a DIV element on a single mouse cl...

प्रोग्रामिंग 2025-04-03 पर पोस्ट किया गया