Comment empêcher les commentaires du locuteur dans la transcription vocale à l'aide de l'API Web Audio

Page de garde > La programmation > Comment empêcher les commentaires du locuteur dans la transcription vocale à l'aide de l'API Web Audio

Comment empêcher les commentaires du locuteur dans la transcription vocale à l'aide de l'API Web Audio

Publié le 2024-08-21

Parcourir:565

How to Prevent Speaker Feedback in Speech Transcription Using Web Audio API

Encore une autre chose que je devais comprendre récemment pour connecter mon moteur de transcription Assembly.ai à une interface bruyante.

Voici ce que j'ai essayé :

Demander l'accès au microphone avec annulation d'écho.
Configurez une chaîne de traitement audio à l'aide de l'API Web Audio.
Intégrez cette configuration à la reconnaissance vocale.
Utilisez DynamicsCompressorNode pour un traitement audio supplémentaire.

Étape 1 : demander l'accès au microphone avec annulation d'écho

La première étape consiste à demander l'accès au microphone avec l'annulation d'écho activée. Cette fonctionnalité est intégrée à la plupart des navigateurs modernes et permet de réduire les retours de vos haut-parleurs.

async function getMicrophoneStream() {
    const constraints = {
        audio: {
            echoCancellation: true,
            noiseSuppression: true,
            autoGainControl: true
        }
    };

    try {
        const stream = await navigator.mediaDevices.getUserMedia(constraints);
        return stream;
    } catch (err) {
        console.error('Error accessing the microphone', err);
        return null;
    }
}

Explication

Contraintes : nous spécifions des contraintes audio pour activer l'annulation de l'écho, la suppression du bruit et le contrôle automatique du gain.
Gestion des erreurs : si l'utilisateur refuse l'accès ou s'il y a un autre problème, nous détectons et enregistrons l'erreur.

Étape 2 : configurer les nœuds de l'API Web Audio

Ensuite, nous configurons l'API Web Audio pour traiter le flux audio. Cela implique de créer un AudioContext et de connecter divers nœuds, y compris un DynamicsCompressorNode.

async function setupAudioProcessing(stream) {
    const audioContext = new AudioContext();
    const source = audioContext.createMediaStreamSource(stream);

    // Create a DynamicsCompressorNode for additional processing
    const compressor = audioContext.createDynamicsCompressor();
    compressor.threshold.setValueAtTime(-50, audioContext.currentTime); // Example settings
    compressor.knee.setValueAtTime(40, audioContext.currentTime);
    compressor.ratio.setValueAtTime(12, audioContext.currentTime);
    compressor.attack.setValueAtTime(0, audioContext.currentTime);
    compressor.release.setValueAtTime(0.25, audioContext.currentTime);

    // Connect nodes
    source.connect(compressor);
    compressor.connect(audioContext.destination);

    return { audioContext, source, compressor };
}

Explication

AudioContext : représente l'environnement audio.
MediaStreamSource : connecte le flux du microphone au contexte audio.
DynamicsCompressorNode : réduit la plage dynamique du signal audio, aidant ainsi à gérer le bruit de fond et le feedback.

Étape 3 : Intégrer la reconnaissance vocale

Enfin, nous intégrons notre configuration de traitement audio à l'API Web Speech pour effectuer la reconnaissance vocale.

async function startSpeechRecognition() {
    const stream = await getMicrophoneStream();
    if (!stream) return;

    const { audioContext, source, compressor } = await setupAudioProcessing(stream);

    const recognition = new (window.SpeechRecognition || window.webkitSpeechRecognition)();
    recognition.continuous = true;
    recognition.interimResults = true;

    recognition.onresult = (event) => {
        for (let i = event.resultIndex; i  {
        console.error('Speech recognition error', event.error);
    };

    recognition.start();

    // Handle audio context resume if needed
    if (audioContext.state === 'suspended') {
        audioContext.resume();
    }

    return recognition;
}

// Start the speech recognition process
startSpeechRecognition();

Explication

Configuration de la reconnaissance vocale : nous avons configuré l'API Web Speech pour une reconnaissance vocale continue et intermédiaire.
Gestion des événements : nous gérons les événements onresult et onerror pour traiter les résultats de reconnaissance et les erreurs.
Démarrer la reconnaissance : nous démarrons le processus de reconnaissance vocale et veillons à ce que le contexte audio ne soit pas suspendu.

J'espère que vous avez trouvé cela utile.

Bon codage !

Tim.

Déclaration de sortie Cet article est reproduit à l'adresse : https://dev.to/fosteman/how-to-prevent-speaker-feedback-in-speech-transcription-using-web-audio-api-2da4?1. En cas de violation, veuillez contacter study_golang@163 .comdelete

Dernier tutoriel Plus>

Comment définir dynamiquement les touches dans les objets JavaScript?
Comment créer une clé dynamique pour une variable d'objet JavaScript lorsque vous essayez de créer une clé dynamique pour un objet JavaScrip...

La programmation Publié le 2025-03-11
Comment supprimer proprement les gestionnaires d'événements JavaScript anonymes?
supprimer les auditeurs d'événements anonymes Ajouter des auditeurs d'événements anonymes aux éléments offre une flexibilité et une simp...

La programmation Publié le 2025-03-11
Comment résoudre les écarts de chemin du module dans GO Mod en utilisant la directive Remplacer?
surmonter la divergence du chemin du module dans go mod Lors de l'utilisation de Go Mod, il est possible de rencontrer un conflit où un pa...

La programmation Publié le 2025-03-11
Comment télécharger des fichiers avec des paramètres supplémentaires à l'aide de java.net.urlconnection et de codage multipart / formulaire de formulaire?
Téléchargement des fichiers avec des demandes http pour télécharger des fichiers sur un serveur http tout en soumettant des paramètres supplém...

La programmation Publié le 2025-03-11
Comment puis-je récupérer efficacement les valeurs d'attribut à partir de fichiers XML à l'aide de PHP?
Récupération des valeurs d'attribut à partir de fichiers xml dans php Chaque développeur rencontre la nécessité de analyser les fichiers X...

La programmation Publié le 2025-03-11
Comment puis-je styliser la première instance d'un type d'élément spécifique sur un document HTML entier?
correspondant au premier élément d'un certain type dans tout le document Styling Le premier élément d'un type spécifique à travers un...

La programmation Publié le 2025-03-11
Comment pouvez-vous utiliser des données de groupe par pour pivoter dans MySQL?
Pivoting des résultats de la requête en utilisant le groupe mysql par Dans une base de données relationnelle, les données pivotant se réfèrent...

La programmation Publié le 2025-03-11
Java autorise-t-il plusieurs types de retour: un regard plus approfondi sur les méthodes génériques?
Plusieurs types de retour en java: une idée fausse dévoilée dans le domaine de la programmation java, une signature de méthode particulière pe...

La programmation Publié le 2025-03-11
Comment récupérer la dernière bibliothèque jQuery des API Google?
Récupération de la dernière bibliothèque jQuery à partir de Google API L'URL jQuery fournie dans la question est pour la version 1.2.6. Po...

La programmation Publié le 2025-03-11
Pourquoi les comparaisons booléennes «Flake8» sont-elles dans les clauses de filtre Sqlalchemy?
flake8 Flagging Boolean Comparison in Filter ClauseWhen attempting to filter query results based on a boolean comparison in SQL, developers may encoun...

La programmation Publié le 2025-03-11
Pourquoi une grille avec des colonnes 100% grid-template s'étend-elle au-delà du corps lors de l'utilisation du positionnement fixe?
La grille dépasse le corps avec 100% grid-template-columns Pourquoi une grille d'affichage avec 100% dans les colonnes de la grille s'...

La programmation Publié le 2025-03-11
Pourquoi Pytz montre-t-il des décalages de fuseau horaire inattendus initialement?
Dicontenance du fuseau horaire avec pytz Certains flammes de temps présentent des décalages particuliers lorsqu'ils sont initialement obte...

La programmation Publié le 2025-03-11
Comment extraire du texte entre parenthèses efficacement en PHP en utilisant Regex
php: extraire du texte dans les parenthèses de manière optimale lors de l'extraction de texte enfermé entre parenthèses, il est essentiel ...

La programmation Publié le 2025-03-11
Pourquoi est-ce que je reçois MySQL Error # 1089: clé de préfixe incorrect?
MySql Error # 1089: Key de préfixe incorrect Les utilisateurs de MySQL peuvent rencontrer du code d'erreur # 1089, indiquant une utilisati...

La programmation Publié le 2025-03-11
$Quelle méthode est la plus efficace pour la détection ponctuelle en polygone: traçage des rayons ou path.contains_points de Matplotlib \?$
Quelle méthode est la plus efficace pour la détection ponctuelle en polygone: traçage des rayons ou path.contains_points de Matplotlib \?
détection efficace de ponctuel en polygone dans python déterminer si un point se trouve dans un polygone est une tâche fréquente en géométrie de...

La programmation Publié le 2025-03-11

Classification Plus>

Apprendre le japonais Apprendre le coréen Apprendre le chinois Apprendre une langue étrangère Jeu Problème commun Périphériques technologiques IA Tutoriel logiciel La programmation Article