Como evitar feedback do alto-falante na transcrição de fala usando API de áudio da Web

Primeira página > Programação > Como evitar feedback do alto-falante na transcrição de fala usando API de áudio da Web

Como evitar feedback do alto-falante na transcrição de fala usando API de áudio da Web

Publicado em 2024-08-21

Navegar:932

How to Prevent Speaker Feedback in Speech Transcription Using Web Audio API

Mais outra coisa que eu precisava descobrir recentemente para conectar meu mecanismo de transcrição Assembly.ai a um frontend que era barulhento.

Aqui está o que eu tentei:

Solicite acesso ao microfone com cancelamento de eco.
Configure uma cadeia de processamento de áudio usando a API Web Audio.
Integre esta configuração com reconhecimento de fala.
Utilize o DynamicsCompressorNode para processamento de áudio adicional.

Etapa 1: solicitar acesso ao microfone com cancelamento de eco

O primeiro passo é solicitar acesso ao microfone com cancelamento de eco habilitado. Esse recurso está integrado na maioria dos navegadores modernos e ajuda a reduzir o feedback dos alto-falantes.

async function getMicrophoneStream() {
    const constraints = {
        audio: {
            echoCancellation: true,
            noiseSuppression: true,
            autoGainControl: true
        }
    };

    try {
        const stream = await navigator.mediaDevices.getUserMedia(constraints);
        return stream;
    } catch (err) {
        console.error('Error accessing the microphone', err);
        return null;
    }
}

Explicação

Restrições: Especificamos restrições de áudio para permitir cancelamento de eco, supressão de ruído e controle de ganho automático.
Tratamento de erros: Se o usuário negar acesso ou se houver qualquer outro problema, detectamos e registramos o erro.

Etapa 2: configurar nós da API de áudio da Web

Em seguida, configuramos a API Web Audio para processar o stream de áudio. Isso envolve a criação de um AudioContext e a conexão de vários nós, incluindo um DynamicsCompressorNode.

async function setupAudioProcessing(stream) {
    const audioContext = new AudioContext();
    const source = audioContext.createMediaStreamSource(stream);

    // Create a DynamicsCompressorNode for additional processing
    const compressor = audioContext.createDynamicsCompressor();
    compressor.threshold.setValueAtTime(-50, audioContext.currentTime); // Example settings
    compressor.knee.setValueAtTime(40, audioContext.currentTime);
    compressor.ratio.setValueAtTime(12, audioContext.currentTime);
    compressor.attack.setValueAtTime(0, audioContext.currentTime);
    compressor.release.setValueAtTime(0.25, audioContext.currentTime);

    // Connect nodes
    source.connect(compressor);
    compressor.connect(audioContext.destination);

    return { audioContext, source, compressor };
}

Explicação

AudioContext: Representa o ambiente de áudio.
MediaStreamSource: conecta o fluxo do microfone ao contexto de áudio.
DynamicsCompressorNode: Reduz a faixa dinâmica do sinal de áudio, ajudando a gerenciar o ruído de fundo e o feedback.

Etapa 3: Integrar com reconhecimento de fala

Finalmente, integramos nossa configuração de processamento de áudio com a Web Speech API para realizar o reconhecimento de fala.

async function startSpeechRecognition() {
    const stream = await getMicrophoneStream();
    if (!stream) return;

    const { audioContext, source, compressor } = await setupAudioProcessing(stream);

    const recognition = new (window.SpeechRecognition || window.webkitSpeechRecognition)();
    recognition.continuous = true;
    recognition.interimResults = true;

    recognition.onresult = (event) => {
        for (let i = event.resultIndex; i  {
        console.error('Speech recognition error', event.error);
    };

    recognition.start();

    // Handle audio context resume if needed
    if (audioContext.state === 'suspended') {
        audioContext.resume();
    }

    return recognition;
}

// Start the speech recognition process
startSpeechRecognition();

Explicação

Configuração de reconhecimento de fala: configuramos a Web Speech API para reconhecimento de fala contínuo e provisório.
Manipulação de eventos: Lidamos com os eventos onresult e onerror para processar resultados e erros de reconhecimento.
Iniciar reconhecimento: iniciamos o processo de reconhecimento de fala e garantimos que o contexto de áudio não seja suspenso.

Esperamos que você tenha achado isso útil.

Boa codificação!

Tim.

Declaração de lançamento Este artigo foi reproduzido em: https://dev.to/fosteman/how-to-prevent-speaker-feedback-in-speech-transcription-using-web-audio-api-2da4?1 Se houver alguma violação, por favor entre em contato com study_golang@163 .comdelete

Tutorial mais recente Mais>

Como simplificar a análise JSON no PHP para matrizes multidimensionais?
analisando JSON com php tentando analisar os dados JSON no PHP pode ser um desafio, especialmente ao lidar com matrizes multidimensionais. Para ...

Programação Postado em 2025-04-06
Por que o DateTime :: Modify do PHP ('+1 mês') produz resultados inesperados?
Modificando meses com php dateTime: descobrindo o comportamento pretendido Ao trabalhar com a classe DateTime do PHP, adicionar ou subtrair me...

Programação Postado em 2025-04-06
Qual método para declarar várias variáveis em JavaScript é mais sustentável?
declarando várias variáveis em javascript: explorando dois métodos em javascript, os desenvolvedores geralmente encontram a necessidade de d...

Programação Postado em 2025-04-06
Como você pode definir variáveis nos modelos de lâmina de Laravel elegantemente?
definindo variáveis nos modelos de lâmina de Laravel com elegance entender como atribuir variáveis nos modelos de blade é crucial para arm...

Programação Postado em 2025-04-06
Como fazer upload de arquivos com parâmetros adicionais usando java.net.urlConnection e codificação multipartida/formulário?
carregando arquivos com http requests para fazer upload de arquivos para um servidor http e também enviando parâmetros adicionais, java.net.ur...

Programação Postado em 2025-04-06
Como posso iterar de maneira síncrona e imprimir valores de duas matrizes de tamanho igual no PHP?
iterando e imprimindo valores de duas matrizes do mesmo tamanho ao criar uma caixa selecionada usando duas matrizes de tamanho igual, um contend...

Programação Postado em 2025-04-06
Preciso excluir explicitamente as alocações de heap em C ++ antes da saída do programa?
exclusão explícita em c, apesar do programa exit ao trabalhar com a alocação de memória dinâmica em C, os desenvolvedores geralmente se pergun...

Programação Postado em 2025-04-06
Como implementar uma função de hash genérico para tuplas em coleções não ordenadas?
função de hash genérico para tuplas em coleções não ordenadas o std :: não -ordered_map e std :: uncomered_set contêineres fornecem pesquisa e...

Programação Postado em 2025-04-06
Como posso lidar com os nomes de arquivos UTF-8 nas funções do sistema de arquivos do PHP?
lidando com utf-8 nomes de arquivos nas funções do sistema de arquivos do PHP Ao criar pastas que contêm caracteres utf-8 usando a função mkdi...

Programação Postado em 2025-04-06
Como posso gerar com eficiência as lesmas amigáveis ao URL a partir de strings unicode no PHP?
criando uma função para geração de lesmas eficientes criando lesmas, representações simplificadas de strings unicode usadas nos URLs, podem se...

Programação Postado em 2025-04-06
Por que não `corpo {margem: 0; } `Sempre remova a margem superior no CSS?
abordando a remoção da margem corporal em css para desenvolvedores da web iniciantes, remover a margem do elemento corporal pode ser uma taref...

Programação Postado em 2025-04-06
Por que não está aparecendo na minha imagem de fundo do CSS?
SOLHAÇÃO DE TRABALHO: CSS Imagem de fundo não apareceu Você encontrou um problema em que sua imagem em segundo plano falha, apesar das seguint...

Programação Postado em 2025-04-06
Como posso unindo tabelas de banco de dados com diferentes números de colunas?
tabelas combinadas com diferentes colunas ] pode encontrar desafios ao tentar mesclar tabelas de banco de dados com colunas diferentes. Uma man...

Programação Postado em 2025-04-06
Variedade
Os métodos são FNs que podem ser chamados em objetos Matrizes são objetos, portanto, eles também têm métodos no JS. Flice (Begin): Extra...

Programação Postado em 2025-04-06
Como converter com eficiência fusos horários em PHP?
Conversão eficiente do fuso horário em php No PHP, o manuseio dos fusos horários pode ser uma tarefa direta. Este guia fornecerá um método fácil...

Programação Postado em 2025-04-06

Classificação Mais>

Aprenda japonês Aprender coreano Aprenda chinês Aprender língua estrangeira Jogo Problema comum Periféricos de tecnologia IA Tutorial de software Programação Artigo