Cómo evitar comentarios del orador en la transcripción de voz utilizando la API de audio web

Página delantera > Programación > Cómo evitar comentarios del orador en la transcripción de voz utilizando la API de audio web

Cómo evitar comentarios del orador en la transcripción de voz utilizando la API de audio web

Publicado el 2024-08-21

Navegar:720

How to Prevent Speaker Feedback in Speech Transcription Using Web Audio API

Otra cosa más que necesitaba descubrir recientemente para conectar mi motor de transcripción Assembly.ai a una interfaz que fuera ruidosa.

Esto es lo que probé:

Solicitar acceso al micrófono con cancelación de eco.
Configura una cadena de procesamiento de audio utilizando Web Audio API.
Integre esta configuración con reconocimiento de voz.
Utilice DynamicsCompressorNode para procesamiento de audio adicional.

Paso 1: Solicite acceso al micrófono con cancelación de eco

El primer paso es solicitar acceso al micrófono con la cancelación de eco habilitada. Esta función está integrada en la mayoría de los navegadores modernos y ayuda a reducir la respuesta de los parlantes.

async function getMicrophoneStream() {
    const constraints = {
        audio: {
            echoCancellation: true,
            noiseSuppression: true,
            autoGainControl: true
        }
    };

    try {
        const stream = await navigator.mediaDevices.getUserMedia(constraints);
        return stream;
    } catch (err) {
        console.error('Error accessing the microphone', err);
        return null;
    }
}

Explicación

Restricciones: Especificamos restricciones de audio para permitir la cancelación de eco, la supresión de ruido y el control de ganancia automática.
Manejo de errores: si el usuario niega el acceso o si hay algún otro problema, detectamos y registramos el error.

Paso 2: configurar los nodos API de audio web

A continuación, configuramos la API de Web Audio para procesar la transmisión de audio. Esto implica crear un AudioContext y conectar varios nodos, incluido un DynamicsCompressorNode.

async function setupAudioProcessing(stream) {
    const audioContext = new AudioContext();
    const source = audioContext.createMediaStreamSource(stream);

    // Create a DynamicsCompressorNode for additional processing
    const compressor = audioContext.createDynamicsCompressor();
    compressor.threshold.setValueAtTime(-50, audioContext.currentTime); // Example settings
    compressor.knee.setValueAtTime(40, audioContext.currentTime);
    compressor.ratio.setValueAtTime(12, audioContext.currentTime);
    compressor.attack.setValueAtTime(0, audioContext.currentTime);
    compressor.release.setValueAtTime(0.25, audioContext.currentTime);

    // Connect nodes
    source.connect(compressor);
    compressor.connect(audioContext.destination);

    return { audioContext, source, compressor };
}

Explicación

AudioContext: Representa el entorno de audio.
MediaStreamSource: conecta la transmisión del micrófono al contexto de audio.
DynamicsCompressorNode: Reduce el rango dinámico de la señal de audio, lo que ayuda a gestionar el ruido de fondo y la retroalimentación.

Paso 3: integrar con el reconocimiento de voz

Finalmente, integramos nuestra configuración de procesamiento de audio con Web Speech API para realizar el reconocimiento de voz.

async function startSpeechRecognition() {
    const stream = await getMicrophoneStream();
    if (!stream) return;

    const { audioContext, source, compressor } = await setupAudioProcessing(stream);

    const recognition = new (window.SpeechRecognition || window.webkitSpeechRecognition)();
    recognition.continuous = true;
    recognition.interimResults = true;

    recognition.onresult = (event) => {
        for (let i = event.resultIndex; i  {
        console.error('Speech recognition error', event.error);
    };

    recognition.start();

    // Handle audio context resume if needed
    if (audioContext.state === 'suspended') {
        audioContext.resume();
    }

    return recognition;
}

// Start the speech recognition process
startSpeechRecognition();

Explicación

Configuración de reconocimiento de voz: Configuramos la API de voz web para el reconocimiento de voz continuo e intermedio.
Manejo de eventos: Manejamos los eventos onresult y onerror para procesar los resultados y errores del reconocimiento.
Iniciar reconocimiento: Iniciamos el proceso de reconocimiento de voz y nos aseguramos de que el contexto de audio no se suspenda.

Esperamos que esto te haya resultado útil.

¡Feliz codificación!

Tiempo.

Declaración de liberación Este artículo se reproduce en: https://dev.to/fosteman/how-to-prevent-speaker-feedback-in-speech-transcription-using-web-audio-api-2da4?1 Si hay alguna infracción, por favor contacto Study_golang@163 .comeliminar

Último tutorial Más>

¿Existe una diferencia de rendimiento entre usar un bucle for-ENTRES y un iterador para la transmisión de recorrido en Java?
para cada bucle vs. iterator: eficiencia en la colección traversal introduction cuando la colección en java, la opción, la opción iba entr...

Programación Publicado el 2025-03-11
¿Cómo se extraen un elemento aleatorio de una matriz en PHP?
Selección aleatoria de una matriz en php, la obtención de un elemento aleatorio de una matriz se puede lograr con facilidad. Considere la siguie...

Programación Publicado el 2025-03-11
¿Se pueden apilar múltiples elementos adhesivos uno encima del otro en CSS puro?
¿Es posible tener múltiples elementos pegajosos apilados uno encima del otro en CSS puro? El comportamiento deseado se puede ver Aquí: https...

Programación Publicado el 2025-03-11
¿Cómo resolver las discrepancias de la ruta del módulo en el mod utilizando la Directiva Reemplazar?
Superación del módulo Discrepancia en el mod Al utilizar el mod, es posible encontrar un conflicto en el que un paquete de terceros importe ot...

Programación Publicado el 2025-03-11
¿Cómo puedo unir tablas de bases de datos con diferentes números de columnas?
tablas combinadas con diferentes columnas ]] puede encontrar desafíos al intentar fusionar las tablas de la base de datos con diferentes column...

Programación Publicado el 2025-03-11
¿Cómo verificar si un objeto tiene un atributo específico en Python?
para determinar el atributo de objeto existencia Esta consulta busca un método para verificar la presencia de un atributo específico dentro de...

Programación Publicado el 2025-03-11
¿Java permite múltiples tipos de devolución: una mirada más cercana a los métodos genéricos?
múltiples tipos de retorno en java: una concepción errónea indicada en el reino de la programación de java, una firma de método de método pued...

Programación Publicado el 2025-03-11
¿Cómo limitar el rango de desplazamiento de un elemento dentro de un elemento principal de tamaño dinámico?
implementando límites de altura de CSS para los elementos de desplazamiento vertical en una interfaz interactiva, controlar el comportamiento ...

Programación Publicado el 2025-03-11
¿Por qué cesan la ejecución de JavaScript cuando se usa el botón de retroceso de Firefox?
Problema de historial de navegación: JavaScript deja de ejecutar después de usar el botón de retroceso de Firefox Los usuarios de Firefox pued...

Programación Publicado el 2025-03-11
¿Puedo migrar mi cifrado de MCRYPT a OpenSSL y descifrar datos cifrados de MCRYPT usando OpenSSL?
actualizando mi biblioteca de cifrado de MCRYP En OpenSSL, ¿es posible descifrar datos encriptados con MCRYPT? Dos publicaciones diferentes propo...

Programación Publicado el 2025-03-11
Formación
Los métodos son fns que se pueden llamar a los objetos Las matrices son objetos, por lo tanto, también tienen métodos en js. Slice (Begi...

Programación Publicado el 2025-03-11
¿Por qué Microsoft Visual C ++ no implementa correctamente la instanciación de la plantilla de dos fases?
El misterio de la plantilla de dos fases "roto" instanciación en Microsoft Visual c declaración de problemas: usuarios comúnmente ...

Programación Publicado el 2025-03-11
¿Cómo insertar correctamente las blobs (imágenes) en MySQL usando PHP?
Inserte blobs en bases de datos MySQL con php Al intentar almacenar una imagen en una base de datos MySQL, puede encontrar un asunto. Esta gu...

Programación Publicado el 2025-03-11
¿Cómo recuperar la última biblioteca jQuery de Google API?
recuperando la última biblioteca jQuery de Google APIS La URL de jQuery proporcionada en la pregunta es para la versión 1.2.6. Para recuperar ...

Programación Publicado el 2025-03-11
¿Cómo puedo manejar múltiples cargas de archivos con FormData ()?
Manejo de múltiples cargas de archivo con formdata () Cuando se trabaja con entradas de archivos, a menudo es necesario manejar múltiples carg...

Programación Publicado el 2025-03-11

Clasificación Más>

Aprende japonés Aprender coreano Aprender chino Aprender idioma extranjero Juego Problema comun Periféricos tecnológicos AI Tutoriales de software Programación Artículo