Entrada de audio a texto a través de Google Speech to Text

Página delantera > Programación > Entrada de audio a texto a través de Google Speech to Text

Entrada de audio a texto a través de Google Speech to Text

Publicado el 2024-11-01

Navegar:184

Audio to Text Input via Google Speech to Text

En este artículo analizaremos los siguientes temas

navigator.mediaDevices.getUserMedia API del navegador
Api de voz a texto de Google

comenzaremos creando un gancho de reacción que hará todas las cosas como iniciar la grabación, detener la grabación, crear Audio Blob, manejo de errores, etc.

Hay algunas otras cosas de las que debemos ocuparnos antes de entrar en el meollo del anzuelo

Decibelios mínimos por encima del cual consideraríamos un diálogo como entrada, por ejemplo, -35 dB (solo un número aleatorio)
¿Cuánto tiempo debe durar la pausa que indicaría que el usuario ha detenido la entrada, por ejemplo, 2000 ms?

const VOICE_MIN_DECIBELS = -35
const DELAY_BETWEEN_DIALOGUE = 2000

Llamemos a nuestro enlace useAudioInput.ts. Estaríamos usando las API del navegador como navigator.mediaDevices.getUserMedia, MediaRecorder y AudioContext. AudioContext nos ayudará a identificar si el audio de entrada es superior al decibelio mínimo requerido para que se considere entrada, por lo que comenzaríamos con las siguientes variables y accesorios

const defaultConfig = {
    audio: true
};

type Payload = Blob;

type Config = {
    audio: boolean;
    timeSlice?: number
    timeInMillisToStopRecording?: number
    onStop: () => void;
    onDataReceived: (payload: Payload) => void
};

export const useAudioInput = (config: Config = defaultConfig) => {
    const mediaChunks = useRef([]);
    const [isRecording, setIsRecording] = useState(false);
    const mediaRecorder = useRef(null);
    const [error, setError] = useState(null);
    let requestId: number;
    let timer: ReturnType;

    const createBlob = () => {
      const [chunk] = mediaChunks.current;
      const blobProperty = { type: chunk.type };
      return new Blob(mediaChunks.current, blobProperty)
    }
  ...
}

En el código anterior usaríamos mediaChunks como variable para contener el blob de entrada y mediaRecorder para tener una instancia del nuevo MediaRecorder que toma la transmisión como entrada desde navigator.mediaDevices.getUserMedia. A continuación, ocupémonos de los casos en los que getUserMedia no está disponible

...
useEffect(() => {
        if(!navigator.mediaDevices || !navigator.mediaDevices.getUserMedia) {
            const notAvailable = new Error('Your browser does not support Audio Input')
            setError(notAvailable)
        }

    },[]);
...

comenzaremos a escribir la funcionalidad real del enlace, que constará de varias funciones como setupMediaRecorder, setupAudioContext, onRecordingStart, onRecordingActive, startRecording, stopRecording, etc.

const onRecordingStart = () => mediaChunks.current = [];

const onRecordingActive = useCallback(({data}: BlobEvent) => {
        if(data) {
            mediaChunks.current.push(data);
            config?.onDataReceived?.(createBlob())
        }
    },[config]);

const startTimer = () => {
        timer = setTimeout(() => {
            stopRecording();
        }, config.timeInMillisToStopRecording)
    };

const setupMediaRecorder = ({stream}:{stream: MediaStream}) => {
        mediaRecorder.current = new MediaRecorder(stream)
        mediaRecorder.current.ondataavailable = onRecordingActive
        mediaRecorder.current.onstop = onRecordingStop
        mediaRecorder.current.onstart = onRecordingStart
        mediaRecorder.current.start(config.timeSlice)

    };

 const setupAudioContext = ({stream}:{stream: MediaStream}) => {
        const audioContext = new AudioContext();
        const audioStreamSource = audioContext.createMediaStreamSource(stream);
        const analyser = audioContext.createAnalyser();

        analyser.minDecibels = VOICE_MIN_DECIBELS;

        audioStreamSource.connect(analyser);
        const bufferLength = analyser.frequencyBinCount;
        const domainData = new Uint8Array(bufferLength)

        return {
            domainData,
            bufferLength,
            analyser
        }
    };

const startRecording = async () => {
        setIsRecording(true);

        await navigator.mediaDevices
            .getUserMedia({
                audio: config.audio
            })
            .then((stream) => {
                setupMediaRecorder({stream});
                if(config.timeSlice) {
                    const { domainData, analyser, bufferLength } = setupAudioContext({ stream });
                    startTimer()
                }
            })
            .catch(e => {
                setError(e);
                setIsRecording(false)
            })
    };



    const stopRecording = () => {
        mediaRecorder.current?.stop();

        clearTimeout(timer);
        window.cancelAnimationFrame(requestId);

        setIsRecording(false);
        onRecordingStop()
    };

    const createBlob = () => {
        const [chunk] = mediaChunks.current;
        const blobProperty = { type: chunk.type };
        return new Blob(mediaChunks.current, blobProperty)
    }

    const onRecordingStop = () => config?.onStop?.();

con el código anterior ya casi terminamos con el gancho, lo único pendiente es identificar si el usuario ha dejado de hablar o no, usaríamos DELAY_BETWEEN_DIALOGUE como el tiempo que esperaríamos, si no hay entrada para 2 segundos, asumiremos que el usuario dejó de hablar y accederá al punto final de voz a texto.

...
const detectSound = ({ 
        recording,
        analyser,
        bufferLength,
        domainData
    }: {
        recording: boolean
        analyser: AnalyserNode
        bufferLength: number
        domainData: Uint8Array
    }) => {
        let lastDetectedTime = performance.now();
        let anySoundDetected = false;

        const compute = () => {
            if (!recording) {
                return;
            }

            const currentTime = performance.now();

            const timeBetweenTwoDialog =
                anySoundDetected === true && currentTime - lastDetectedTime > DELAY_BETWEEN_DIALOGUE;

            if (timeBetweenTwoDialog) {
                stopRecording();

                return;
            }

            analyser.getByteFrequencyData(domainData);

            for (let i = 0; i  0) {
                    anySoundDetected = true;
                    lastDetectedTime = performance.now();
                }
            }

            requestId = window.requestAnimationFrame(compute);
        };

        compute();

    }
...

const startRecording = async () => {
 ... 
  detectSound()
 ... 
}

en el código anterior estamos usando requestAnimationFrame para detectar la entrada de audio del usuario, con esto hemos terminado con el gancho y ahora podemos comenzar a usarlo en varios lugares.

p.ej

  const onDataReceived = async (data: BodyInit) => {
    const rawResponse = await fetch('https://backend-endpoint', {
      method: 'POST',
      body: data
    });
    const response = await rawResponse.json();

    setText(response)
  };

  const { isRecording, startRecording, error } = useAudioInput({
    audio: true,
    timeInMillisToStopRecording: 2000,
    timeSlice: 400,
    onDataReceived
  })

La segunda parte es conectar un servidor de nodo que pueda comunicarse con la API de voz a texto de Google. He adjuntado la documentación a la que me referí mientras creaba el lado del nodo.
https://codelabs.developers.google.com/codelabs/cloud-speech-text-node.

// demo node server which connects with google speech to text api endpoint

const express = require('express');
const cors = require('cors');

const speech = require('@google-cloud/speech');

const client = new speech.SpeechClient();

async function convert(audioBlob) {
  const request = {
    config: {
      encoding: 'WEBM_OPUS', // Ensure this matches the format of the audio being sent
      sampleRateHertz: 48000, // This should match the sample rate of your recording
      languageCode: 'en-US'
    },
    audio: {
      content: audioBlob
    }
  };

  const [response] = await client.recognize(request);

  const transcription = response.results
    .map(result => result.alternatives[0].transcript)
    .join('\n');
  return transcription;
}

const app = express();

app.use(cors())
app.use(express.json());

app.post('/upload', express.raw({ type: '*/*' }), async (req, res) => {
    const audioBlob = req.body;

    const response = await convert(audioBlob);

    res.json(response);
});

app.listen(4000,'0.0.0.0', () => {
  console.log('Example app listening on port 4000!');
});

en este artículo he cubierto el envío de contenido de audio o blob al punto final de voz a texto de Google, también podemos enviar un uri de blob en lugar de contenido, el único cambio será la carga útil

// sending url as part of audio object to speech to text api 
...
audio: {url: audioUrl} or audio: {content: audioBlob}
...

El código relacionado con el artículo está presente en Github.

Declaración de liberación Este artículo se reproduce en: https://dev.to/shubhadip/audio-to-text-input-via-google-speech-to-text-4ob0?1 Si hay alguna infracción, comuníquese con [email protected] para borrarlo

Último tutorial Más>

¿Cómo insertar correctamente las blobs (imágenes) en MySQL usando PHP?
Inserte blobs en bases de datos MySQL con php Al intentar almacenar una imagen en una base de datos MySQL, puede encontrar un asunto. Esta gu...

Programación Publicado el 2025-04-01
¿Cómo selecciono de manera eficiente columnas en Pandas Dataframes?
seleccionando columnas en Pandas Dataframes cuando se trata de tareas de manipulación de datos, se hace necesario seleccionar columnas específ...

Programación Publicado el 2025-04-01
¿Java permite múltiples tipos de devolución: una mirada más cercana a los métodos genéricos?
múltiples tipos de retorno en java: una concepción errónea indicada en el reino de la programación de java, una firma de método de método pued...

Programación Publicado el 2025-04-01
¿Cómo puedo generar eficientemente las babosas amigables con la URL a partir de cuerdas Unicode en PHP?
elaborando una función para una generación de babosas eficiente creando babosas, representaciones simplificadas de las cadenas unicode utiliza...

Programación Publicado el 2025-04-01
¿Por qué no es una solicitud posterior a capturar la entrada en PHP a pesar del código válido?
abordando la solicitud de solicitud de la publicación $ _Server ['php_self'];?> "Método =" post "> [&] la intenci...

Programación Publicado el 2025-04-01
¿Cómo mostrar correctamente la fecha y hora actuales en el formato "DD/MM/YYYY HH: MM: SS.SS" en Java?
cómo mostrar la fecha y la hora actuales en "dd/mm/aa radica en el uso de diferentes instancias de SimpleFormat con diferentes patrones de f...

Programación Publicado el 2025-04-01
¿Puedes usar CSS para la salida de la consola de color en Chrome y Firefox?
que muestra los colores en la console JavaScript es posible usar la consola de Chrome para mostrar texto coloreado, como rojo para errores, na...

Programación Publicado el 2025-04-01
¿Qué método para declarar múltiples variables en JavaScript es más mantenible?
declarando múltiples variables en JavaScript: explorando dos métodos en JavaScript, los desarrolladores a menudo encuentran la necesidad de de...

Programación Publicado el 2025-04-01
¿Cómo puedo ejecutar múltiples declaraciones SQL en una sola consulta usando nodo-mysql?
múltiple consulta de consulta en nodo-mysql en node.js, la pregunta surge al ejecutar múltiples estaciones sql en una sola consulta utilizando...

Programación Publicado el 2025-04-01
¿Cómo usar correctamente las consultas como los parámetros PDO?
usando consultas similares en pdo al intentar implementar una consulta similar en PDO, puede encontrar problemas como el que se describe en la...

Programación Publicado el 2025-04-01
¿Cómo analizar los números en notación exponencial usando decimal.parse ()?
analizando un número de la notación exponencial cuando intenta analizar una cadena expresada en notación exponencial usando decimal.parse (&qu...

Programación Publicado el 2025-04-01
¿Cómo se extraen un elemento aleatorio de una matriz en PHP?
Selección aleatoria de una matriz en php, la obtención de un elemento aleatorio de una matriz se puede lograr con facilidad. Considere la siguie...

Programación Publicado el 2025-04-01
¿Cómo puedo personalizar las optimizaciones de compilación en el compilador GO?
Personalización de optimizaciones de compilación En compilador GO El proceso de compilación predeterminado en Go sigue una estrategia de optim...

Programación Publicado el 2025-04-01
¿Cómo enviar una solicitud de publicación en bruto con Curl en PHP?
Cómo enviar una solicitud de publicación sin procesar usando curl en php en php, Curl es una biblioteca popular para enviar solicitudes HTTP. ...

Programación Publicado el 2025-04-01
¿Cómo recuperar la última biblioteca jQuery de Google API?
recuperando la última biblioteca jQuery de Google APIS La URL de jQuery proporcionada en la pregunta es para la versión 1.2.6. Para recuperar ...

Programación Publicado el 2025-04-01

Clasificación Más>

Aprende japonés Aprender coreano Aprender chino Aprender idioma extranjero Juego Problema comun Periféricos tecnológicos AI Tutoriales de software Programación Artículo