”工欲善其事,必先利其器。“—孔子《论语.录灵公》
首页 > 编程 > 通过 Google Speech to Text 进行音频转文本输入

通过 Google Speech to Text 进行音频转文本输入

发布于2024-11-01
浏览:544

Audio to Text Input via Google Speech to Text

在本文中,我们将研究以下主题

  1. navigator.mediaDevices.getUserMedia浏览器Api
  2. Google 语音转文本 Api

我们将从创建 React hook 开始,它将执行所有操作,例如 startRecording、stopRecording、创建 Audio Blob、错误处理等。

在我们进入正题之前,还有一些其他事情需要注意

  1. 最小分贝,高于该分贝我们将考虑将对话作为输入,例如-35db(只是一个随机数)
  2. 表示用户已停止输入的暂停时间应为多长,例如 2000 毫秒
const VOICE_MIN_DECIBELS = -35
const DELAY_BETWEEN_DIALOGUE = 2000

让我们将钩子命名为 useAudioInput.ts,我们将使用浏览器 api,例如 navigator.mediaDevices.getUserMedia、MediaRecorder 和 AudioContext。 AudioContext 将帮助我们识别输入音频是否高于被视为输入所需的最小分贝,因此我们将从以下变量和道具开始

const defaultConfig = {
    audio: true
};

type Payload = Blob;

type Config = {
    audio: boolean;
    timeSlice?: number
    timeInMillisToStopRecording?: number
    onStop: () => void;
    onDataReceived: (payload: Payload) => void
};

export const useAudioInput = (config: Config = defaultConfig) => {
    const mediaChunks = useRef([]);
    const [isRecording, setIsRecording] = useState(false);
    const mediaRecorder = useRef(null);
    const [error, setError] = useState(null);
    let requestId: number;
    let timer: ReturnType;

    const createBlob = () => {
      const [chunk] = mediaChunks.current;
      const blobProperty = { type: chunk.type };
      return new Blob(mediaChunks.current, blobProperty)
    }
  ...
}

在上面的代码中,我们将使用 mediaChunks 作为变量来保存输入 blob 和 mediaRecorder 来拥有新 MediaRecorder 的实例,该实例将流作为来自 navigator.mediaDevices.getUserMedia 的输入。接下来让我们处理 getUserMedia 不可用的情况

...
useEffect(() => {
        if(!navigator.mediaDevices || !navigator.mediaDevices.getUserMedia) {
            const notAvailable = new Error('Your browser does not support Audio Input')
            setError(notAvailable)
        }

    },[]);
...

我们将开始编写钩子的实际功能,其中包括各种函数,如 setupMediaRecorder、setupAudioContext、onRecordingStart、onRecordingActive、startRecording、stopRecording 等。

const onRecordingStart = () => mediaChunks.current = [];

const onRecordingActive = useCallback(({data}: BlobEvent) => {
        if(data) {
            mediaChunks.current.push(data);
            config?.onDataReceived?.(createBlob())
        }
    },[config]);

const startTimer = () => {
        timer = setTimeout(() => {
            stopRecording();
        }, config.timeInMillisToStopRecording)
    };

const setupMediaRecorder = ({stream}:{stream: MediaStream}) => {
        mediaRecorder.current = new MediaRecorder(stream)
        mediaRecorder.current.ondataavailable = onRecordingActive
        mediaRecorder.current.onstop = onRecordingStop
        mediaRecorder.current.onstart = onRecordingStart
        mediaRecorder.current.start(config.timeSlice)

    };

 const setupAudioContext = ({stream}:{stream: MediaStream}) => {
        const audioContext = new AudioContext();
        const audioStreamSource = audioContext.createMediaStreamSource(stream);
        const analyser = audioContext.createAnalyser();

        analyser.minDecibels = VOICE_MIN_DECIBELS;

        audioStreamSource.connect(analyser);
        const bufferLength = analyser.frequencyBinCount;
        const domainData = new Uint8Array(bufferLength)

        return {
            domainData,
            bufferLength,
            analyser
        }
    };

const startRecording = async () => {
        setIsRecording(true);

        await navigator.mediaDevices
            .getUserMedia({
                audio: config.audio
            })
            .then((stream) => {
                setupMediaRecorder({stream});
                if(config.timeSlice) {
                    const { domainData, analyser, bufferLength } = setupAudioContext({ stream });
                    startTimer()
                }
            })
            .catch(e => {
                setError(e);
                setIsRecording(false)
            })
    };



    const stopRecording = () => {
        mediaRecorder.current?.stop();

        clearTimeout(timer);
        window.cancelAnimationFrame(requestId);

        setIsRecording(false);
        onRecordingStop()
    };

    const createBlob = () => {
        const [chunk] = mediaChunks.current;
        const blobProperty = { type: chunk.type };
        return new Blob(mediaChunks.current, blobProperty)
    }

    const onRecordingStop = () => config?.onStop?.();

通过上面的代码,我们几乎完成了钩子,唯一悬而未决的事情是确定用户是否已经停止说话,如果 2 没有输入,我们将使用 DELAY_BETWEEN_DIALOGUE 作为我们要等待的时间秒后,我们将假设用户已停止讲话并将点击语音到文本端点。

...
const detectSound = ({ 
        recording,
        analyser,
        bufferLength,
        domainData
    }: {
        recording: boolean
        analyser: AnalyserNode
        bufferLength: number
        domainData: Uint8Array
    }) => {
        let lastDetectedTime = performance.now();
        let anySoundDetected = false;

        const compute = () => {
            if (!recording) {
                return;
            }

            const currentTime = performance.now();

            const timeBetweenTwoDialog =
                anySoundDetected === true && currentTime - lastDetectedTime > DELAY_BETWEEN_DIALOGUE;

            if (timeBetweenTwoDialog) {
                stopRecording();

                return;
            }

            analyser.getByteFrequencyData(domainData);

            for (let i = 0; i  0) {
                    anySoundDetected = true;
                    lastDetectedTime = performance.now();
                }
            }

            requestId = window.requestAnimationFrame(compute);
        };

        compute();

    }
...

const startRecording = async () => {
 ... 
  detectSound()
 ... 
}

在上面的代码中,我们使用 requestAnimationFrame 来检测用户音频输入,这样我们就完成了钩子,现在可以开始在各个地方使用钩子。

例如

  const onDataReceived = async (data: BodyInit) => {
    const rawResponse = await fetch('https://backend-endpoint', {
      method: 'POST',
      body: data
    });
    const response = await rawResponse.json();

    setText(response)
  };

  const { isRecording, startRecording, error } = useAudioInput({
    audio: true,
    timeInMillisToStopRecording: 2000,
    timeSlice: 400,
    onDataReceived
  })

第二部分是连接一个节点服务器,它可以与谷歌语音到文本 API 进行通信,我已经附加了我在创建节点方面时引用的文档。
https://codelabs.developers.google.com/codelabs/cloud-speech-text-node。

// demo node server which connects with google speech to text api endpoint

const express = require('express');
const cors = require('cors');

const speech = require('@google-cloud/speech');

const client = new speech.SpeechClient();

async function convert(audioBlob) {
  const request = {
    config: {
      encoding: 'WEBM_OPUS', // Ensure this matches the format of the audio being sent
      sampleRateHertz: 48000, // This should match the sample rate of your recording
      languageCode: 'en-US'
    },
    audio: {
      content: audioBlob
    }
  };

  const [response] = await client.recognize(request);

  const transcription = response.results
    .map(result => result.alternatives[0].transcript)
    .join('\n');
  return transcription;
}

const app = express();

app.use(cors())
app.use(express.json());

app.post('/upload', express.raw({ type: '*/*' }), async (req, res) => {
    const audioBlob = req.body;

    const response = await convert(audioBlob);

    res.json(response);
});

app.listen(4000,'0.0.0.0', () => {
  console.log('Example app listening on port 4000!');
});


在本文中,我介绍了如何将音频内容或 blob 发送到 google 语音转文本端点,我们还可以发送 blob uri 而不是内容,唯一的变化是有效负载

// sending url as part of audio object to speech to text api 
...
audio: {url: audioUrl} or audio: {content: audioBlob}
...

与本文相关的代码位于 Github 中。

版本声明 本文转载于:https://dev.to/shubhadip/audio-to-text-input-via-google-speech-to-text-4ob0?1如有侵犯,请联系[email protected]删除
最新教程 更多>
  • 如何使用 mysqli_pconnect() 在 PHP 中实现 MySQL 连接池?
    如何使用 mysqli_pconnect() 在 PHP 中实现 MySQL 连接池?
    MySQL 的 PHP 连接池在 PHP 中,维护数据库连接会影响性能。为了优化这一点,开发人员经常考虑使用连接池技术。MySQL 的连接池MySQL 没有内置的连接池机制。然而,MySQLi 扩展提供了 mysqli_pconnect() 函数,其作用与 mysqli_connect() 类似,但...
    编程 发布于2024-11-07
  • 将 HTMX 添加到 GO
    将 HTMX 添加到 GO
    HTMX 是 intercooler.js 的后继者,用于使用 HTTP 命令扩展 HTML,而无需编写 API。现在,我知道一开始我说我要删除抽象层,但是我更多的是系统/工具程序员,所以我仍然需要一些抽象,直到我掌握了底层实际发生的情况。 基本概念 HTMX 部署 AJAX 命令来...
    编程 发布于2024-11-07
  • 发现 itertools
    发现 itertools
    Itertools 是最有趣的 Python 库之一。它包含一系列受函数式语言启发的函数,用于与迭代器一起使用。 在这篇文章中,我将提到一些最引起我注意并且值得牢记的内容,以免每次都重新发明轮子。 数数 好几次我都实现了无限计数(好吧,结束了 显式地在某个点用中断)使用 while ...
    编程 发布于2024-11-07
  • 为什么每个人都应该学习 Go(即使您认为生活中不需要另一种语言)
    为什么每个人都应该学习 Go(即使您认为生活中不需要另一种语言)
    啊,Go,编程语言。您可能听说过,也许是从办公室里一位过于热情的开发人员那里听说过的,他总是不停地谈论他们的 API 现在有多“快得惊人”。当然,您已经涉足过其他语言,也许您会想:“我真的需要另一种语言吗?”剧透警报:是的,是的,你知道。 Go 就是那种语言。让我以最讽刺、最真诚的方式为你解释一下。...
    编程 发布于2024-11-07
  • 如何计算 Pandas 中多列的最大值?
    如何计算 Pandas 中多列的最大值?
    在 Pandas 中查找多列的最大值假设您有一个包含多列的数据框,并且希望创建一个包含两个或多个列中的最大值的新列现有的列。例如,给定 A 列和 B 列,您需要创建 C 列,其中:C = max(A, B)要完成此任务:使用 max 函数和 axis=1 计算指定列中每行的最大值:df[["...
    编程 发布于2024-11-07
  • 如何在 PHP 中从目录中检索文件名?
    如何在 PHP 中从目录中检索文件名?
    从 PHP 中的目录中检索文件如何在 PHP 中访问目录中的文件名?事实证明,确定正确的命令具有挑战性。这个问题旨在为寻求类似解决方案的个人提供帮助。PHP提供了几种从目录获取文件列表的方法:DirectoryIterator(推荐)此类允许对目录中的文件进行迭代:foreach (new Dire...
    编程 发布于2024-11-07
  • 使用 Linq、Criteria API 和 Query Over 扩展 NHibernate 的 Ardalis.Specification
    使用 Linq、Criteria API 和 Query Over 扩展 NHibernate 的 Ardalis.Specification
    Ardalis.Specification is a powerful library that enables the specification pattern for querying databases, primarily designed for Entity Framework Cor...
    编程 发布于2024-11-07
  • PYTHON:OOP {初学者版}
    PYTHON:OOP {初学者版}
    Python:面向对象编程[OOP]:是一种编程范式(模型),使用对象和类来构建软件一种模拟现实世界实体和关系的方法。这是基于对象可以包含数据和操作该数据的代码的想法。 关于面向对象编程,您需要了解一些关键概念: 班级 目的 属性 方法 遗产 封装 多态性 抽象 下面的示例是一个帮助您参考正在解释的...
    编程 发布于2024-11-07
  • Neo.mjs:一个高性能开源 JavaScript 框架。
    Neo.mjs:一个高性能开源 JavaScript 框架。
    在浏览 GitHub 并寻找可协作的开源项目时,我发现了 Neo.mjs。我对这个项目产生了兴趣,并开始更多地研究这个新框架。我想在这篇博文中分享我发现的所有内容。 什么是 Neo.mjs? Neo.mjs 旨在构建高性能、数据驱动的 Web 应用程序,重点关注利用 Web Work...
    编程 发布于2024-11-07
  • 将 Azure Functions 部署到 Azure 容器应用程序的两种方法的比较
    将 Azure Functions 部署到 Azure 容器应用程序的两种方法的比较
    昨天,我写了一篇题为“在 Azure 容器应用程序上部署 Java Azure Function”的文章。 在那篇文章中,我提到使用 Azure 的集成管理功能,我想澄清这意味着什么以及它与本文中以前的方法有何不同。 旧方法:使用 az containerapp create 创建 ...
    编程 发布于2024-11-07
  • 如何使用 MinGW 在 Windows 上构建 GLEW?分步指南。
    如何使用 MinGW 在 Windows 上构建 GLEW?分步指南。
    使用 MinGW 在 Windows 上构建 GLEW:综合指南使用 GLEW,这是一个无缝集成 OpenGL 和 WGL 函数的纯头文件库,使用 MinGW 增强 Windows 上 OpenGL 应用程序的开发。为了使用 MinGW 有效构建 GLEW,需要一组特定的命令和步骤。首先,创建两个名...
    编程 发布于2024-11-07
  • 如何使用 CSS 创建带有对角线的双色调背景?
    如何使用 CSS 创建带有对角线的双色调背景?
    使用对角线创建双色调背景要使用 CSS 实现由对角线分为两部分的背景,请执行以下操作这些步骤:1。创建两个 Div:创建两个单独的 div 来表示两个背景部分。2.设置 Div 样式:将以下 CSS 应用于 div:.solid-div { background-color: [solid co...
    编程 发布于2024-11-07
  • 文档的力量:阅读如何改变我在 JamSphere 上使用 Redux 的体验
    文档的力量:阅读如何改变我在 JamSphere 上使用 Redux 的体验
    作为开发人员,我们经常发现自己一头扎进新的库或框架,渴望将我们的想法变为现实。跳过文档并直接跳到编码的诱惑很强烈——毕竟,这有多难呢?但正如我通过构建音乐管理平台 JamSphere 的经验所了解到的那样,跳过这一关键步骤可能会将顺利的旅程变成充满挑战的艰苦战斗。 跳过文档的魅力 当...
    编程 发布于2024-11-07
  • 如何在PHP多子域应用中精准控制Cookie域?
    如何在PHP多子域应用中精准控制Cookie域?
    在 PHP 中控制 Cookie 域和子域创建多子域站点时,有必要控制会话 cookie 的域确保每个子域的正确会话管理。然而,手动设置域时,PHP 的 cookie 处理似乎存在差异。默认情况下,session_start() 会使用当前子域分配会话 cookie。但是,尝试使用 ini_set(...
    编程 发布于2024-11-07
  • Java中的三元运算符可以不返回值吗?
    Java中的三元运算符可以不返回值吗?
    三元运算符:深入研究代码优化虽然三元运算符 (?:) 是 Java 中的一个强大工具,但它了解其局限性至关重要。一个常见的误解是可以在不返回值的情况下使用它。与这种看法相反,Java 不允许在没有 return 语句的情况下进行三元运算。三元运算符的目的是评估条件并将值分配给变量或表达式。如果没有返...
    编程 发布于2024-11-07

免责声明: 提供的所有资源部分来自互联网,如果有侵犯您的版权或其他权益,请说明详细缘由并提供版权或权益证明然后发到邮箱:[email protected] 我们会第一时间内为您处理。

Copyright© 2022 湘ICP备2022001581号-3