”工欲善其事,必先利其器。“—孔子《论语.录灵公》
首页 > 编程 > 适用于您的实时应用程序的 Supersonic GPU MelSpectrogram

适用于您的实时应用程序的 Supersonic GPU MelSpectrogram

发布于2024-11-08
浏览:466

Supersonic GPU MelSpectrogram for your real-time applications

在 Simli,我们最关心的是延迟。毕竟,这就是我们的目标:低延迟视频。另一方面,音频机器学习中一些最常用的算法的实现速度非常慢。需要明确的是,这些实现通常适合创建模型本身或批量推理。但对于 Simli 的我们来说,几毫秒就可能意味着视频是断断续续的混乱还是流畅。
对我来说幸运的是(以及作为读者的代理),本指南不需要太多数学知识,更聪明的人已经弄清楚如何获得正确的答案,我们只是让计算更加高效。如果您需要更多信息来了解 MelSpectrogram 到底是什么,您可以阅读这篇文章。计算频谱图的方法有多种,这在很大程度上取决于您的应用程序。因此,为了方便作者,我们将重点放在运行内部模型所需的梅尔上。

常见的解决方案:Librosa

您很可能是在遇到使用 Librosa 的存储库后来到这里的。老实说,这是一个非常方便的图书馆。有大量实用程序、读取磁盘上音频的简单方法以及快速访问许多常用功能(例如音频重采样、通道缩混等)。在我们的例子中,我们对一种特定的功能感兴趣:梅尔谱图计算。在 librosa 中,获取梅尔光谱图非常简单。

import librosa

# load in any audio to test
sampleAudio, sr = librosa.load("sample.mp3", sr=None) # sr=None means the original sampling rate
spectrogram = librosa.feature.melspectrogram(
    y=sampleAudio,
    sr=sr,
    n_fft=int(0.05 * sr),  # 50ms
    hop_length=int(0.0125 * sr),  # 12.5ms
    win_length=int(0.05 * sr),
)

很简单,在 GCP g2 虚拟机上平均需要 2 毫秒左右。嗯,主要有两个问题:

  1. 通常,在使用深度学习模型时,您需要在 GPU 上运行模型。这意味着链的一部分在 CPU 上运行,然后将结果复制回 GPU。对于批量推理,这基本上没问题,因为您应该收集 GPU/传输上能够容纳的尽可能多的数据。然而,在我们的例子中,我们经常一次处理一帧以减少等待和处理时间。
  2. 我们的总时间预算约为 33 毫秒/帧。这包括从 API 服务器到 ML 推理服务器的传输延迟、CPU 到 GPU 的复制、预处理和模型后处理(包括梅尔谱图)。当您的预算如此紧张时,每一毫秒都很重要。这两毫秒实际上有助于为 Simli 提供一个可工作的实时渲染视频流(当然,这是许多优化,每个优化都值得一两毫秒)。

网上寻找解决方案

在尝试了解其他人是如何做到这一点时(幸运的是,这对我们来说不是一个独特的问题),我发现这篇文章解释了梅尔谱图的工作原理,并提供了一个参考实现,由于某种原因,该实现仅花费了 1 毫秒(50 % 改进)。这是一个好的开始,但仍然存在第一个问题,并非所有内容都在 GPU 上。我们正在使用 PyTorch,并一直依赖 torch.compile 和 mode=reduce-overhead 来最大程度地提高速度。然而,像这样的数据传输可能会降低性能,因为 PyTorch 编译器也无法优化该函数。解决方案有点繁琐但是相对简单,用torch重写一下即可。 PyTorch 团队已确保其许多语法和功能尽可能接近 NumPy(一些边缘情况通常都有详细记录,除了让我迷失了几天的情况,但这是另一个博客的故事) .

PyTorch 重写

因此,为了成功重写 Pytorch 中的所有内容,我们需要执行几个步骤。梅尔谱图可以分为三个步骤:

  • 计算短时傅立叶变换
  • 生成梅尔标度频率库
  • 生成频谱图。

有好消息也有坏消息。好消息是所有必需的功能都可以在 pytorch 或 torchaudio 中轻松获得。坏消息是默认行为与 librosa 有很大不同,因此需要进行大量配置和反复试验才能使其正确。我经历过这些,我之所以分享这些信息,是因为我什至不希望我最大的敌人遭受这样的厄运。我们需要理解的一件事是,这段代码严重依赖于缓存一些结果以供以后使用。这是在预生成所有静态数组的初始化函数中完成的(例如,梅尔频率库取决于采样率和所需的梅尔数量)。这是我们使用 PyTorch 优化的 Melspectrogram 函数

import torch

if torch.cuda.is_available
    @torch.compile(mode="reduce-overhead")
else:
    @torch.compile
def melspecrogram_torch(wav:torch.Tensor,sample_rate:int, hann_window: torch.Tensor, mel_basis: torch.Tensor):
    stftWav = torch.stft(
            wav,
            n_fft=int(sample_rate*0.05),
            win_length=int(sample_rate*0.05),
            hop_length=int(sample_rate*0.0125),
            window=hann_window,
            pad_mode="constant",
            return_complex=True,
        ).abs()
    stftWav = stftWav.squeeze()
    mel_stftWav = torch.mm(mel_basis, stftWav)
    return mel_stftWav

device = "cuda" if torch.cuda.is_available() else "cpu"

melspectrogram_torch(
    sampleAudio,
    sr,
    torch.hann_window(int(sample_rate*0.05), device=device, dtype=torch.float32),
    torchaudio.functional.melscale_fbanks(
        sample_rate=sr,
        n_freqs=(int(sample_rate*0.05) // 2   1),
        norm="slaney", # this is the normalization algorithm used by librosa
        # this is an example that's related to our own pipeline, check what you need for yours
        n_mels=80,
        f_min=55,
        f_max=7600,
    )
    .T.to(device)
)

初始编译运行后,我们使用 Nvidia L4 GPU(缓存 hann_window 和 melscale_fbanks)测量该函数需要 350 微秒。调整后的调用将如下所示:

hann=torch.hann_window(int(sample_rate*0.05), device=device, dtype=torch.float32),
melscale=torchaudio.functional.melscale_fbanks(
        sample_rate=sr,
        n_freqs=(int(sample_rate*0.05) // 2   1),
        norm="slaney", # this is the normalization algorithm used by librosa
        # this is an example that's related to our own pipeline, check what you need for yours
        n_mels=80,
        f_min=55,
        f_max=7600,
    )
    .T.to(device)
melspectrogram_torch(
    sampleAudio,
    sr,
    hann,
    melscale,
)

这是关于我们如何优化部署的预训练模型、优化预处理和后处理步骤的一系列文章的一部分。您可以查看 https://www.simli.com/demo 查看已部署的模型以及我们提供的最低延迟的头像

版本声明 本文转载于:https://dev.to/simli_ai/supersonic-gpu-melspectrogram-for-your-real-time-applications-gg1?1如有侵犯,请联系[email protected]删除
最新教程 更多>
  • 为什么我的CSS背景图像出现?
    为什么我的CSS背景图像出现?
    故障排除:CSS背景图像未出现 ,您的背景图像尽管遵循教程说明,但您的背景图像仍未加载。图像和样式表位于相同的目录中,但背景仍然是空白的白色帆布。而不是不弃用的,您已经使用了CSS样式: bockent {背景:封闭图像文件名:背景图:url(nickcage.jpg); 如果您的html,css...
    编程 发布于2025-03-12
  • 我可以将加密从McRypt迁移到OpenSSL,并使用OpenSSL迁移MCRYPT加密数据?
    我可以将加密从McRypt迁移到OpenSSL,并使用OpenSSL迁移MCRYPT加密数据?
    将我的加密库从mcrypt升级到openssl 问题:是否可以将我的加密库从McRypt升级到OpenSSL?如果是这样,如何?答案:是的,可以将您的Encryption库从McRypt升级到OpenSSL。可以使用openssl。附加说明: [openssl_decrypt()函数要求iv参...
    编程 发布于2025-03-12
  • HTML格式标签
    HTML格式标签
    HTML 格式化元素 **HTML Formatting is a process of formatting text for better look and feel. HTML provides us ability to format text without us...
    编程 发布于2025-03-12
  • 如何使用Java.net.urlConnection和Multipart/form-data编码使用其他参数上传文件?
    如何使用Java.net.urlConnection和Multipart/form-data编码使用其他参数上传文件?
    使用http request 上传文件上传到http server,同时也提交其他参数,java.net.net.urlconnection and Multipart/form-data Encoding是普遍的。 Here's a breakdown of the process:Mu...
    编程 发布于2025-03-12
  • \“(1)vs.(;;):编译器优化是否消除了性能差异?\”
    \“(1)vs.(;;):编译器优化是否消除了性能差异?\”
    答案: 在大多数现代编译器中,while(1)和(1)和(;;)之间没有性能差异。编译器: perl: 1 输入 - > 2 2 NextState(Main 2 -E:1)V-> 3 9 Leaveloop VK/2-> A 3 toterloop(next-> 8 last-> 9 ...
    编程 发布于2025-03-12
  • 如何检查对象是否具有Python中的特定属性?
    如何检查对象是否具有Python中的特定属性?
    方法来确定对象属性存在寻求一种方法来验证对象中特定属性的存在。考虑以下示例,其中尝试访问不确定属性会引起错误: >>> a = someClass() >>> A.property Trackback(最近的最新电话): 文件“ ”,第1行, AttributeError: SomeClass...
    编程 发布于2025-03-12
  • 如何使用PHP将斑点(图像)正确插入MySQL?
    如何使用PHP将斑点(图像)正确插入MySQL?
    essue VALUES('$this->image_id','file_get_contents($tmp_image)')";This code builds a string in PHP, but the function call ...
    编程 发布于2025-03-12
  • 如何在JavaScript对象中动态设置键?
    如何在JavaScript对象中动态设置键?
    在尝试为JavaScript对象创建动态键时,如何使用此Syntax jsObj['key' i] = 'example' 1;不工作。正确的方法采用方括号: jsobj ['key''i] ='example'1; 在JavaScript中,数组是一...
    编程 发布于2025-03-12
  • 如何干净地删除匿名JavaScript事件处理程序?
    如何干净地删除匿名JavaScript事件处理程序?
    删除匿名事件侦听器将匿名事件侦听器添加到元素中会提供灵活性和简单性,但是当要删除它们时,可以构成挑战,而无需替换元素本身就可以替换一个问题。 element? element.addeventlistener(event,function(){/在这里工作/},false); 要解决此问题,请考虑...
    编程 发布于2025-03-12
  • 大批
    大批
    [2 数组是对象,因此它们在JS中也具有方法。 切片(开始):在新数组中提取部分数组,而无需突变原始数组。 令ARR = ['a','b','c','d','e']; // USECASE:提取直到索引作...
    编程 发布于2025-03-12
  • 我如何在C#/。网中合并两个图像,以保持透明度的同时以较大图像的形式居中?
    我如何在C#/。网中合并两个图像,以保持透明度的同时以较大图像的形式居中?
    在c#/。net中合并图像:综合指南 通过在各种域上组合多个域中的常见可视化的可吸引人的工作。在c#/。网络中,此合并过程涉及使用强大的图形API及其关联的类。假设您有两个图像:透明的500x500 image(imagea)和150x1150 image(Imageb)。您的目标是合并这些图像,...
    编程 发布于2025-03-12
  • 版本5.6.5之前,使用current_timestamp与时间戳列的current_timestamp与时间戳列有什么限制?
    版本5.6.5之前,使用current_timestamp与时间戳列的current_timestamp与时间戳列有什么限制?
    在时间戳列上使用current_timestamp或MySQL版本中的current_timestamp或在5.6.5 此限制源于遗留实现的关注,这些限制需要对当前的_timestamp功能进行特定的实现。 创建表`foo`( `Productid` int(10)unsigned not n...
    编程 发布于2025-03-12
  • 如何使用不同数量列的联合数据库表?
    如何使用不同数量列的联合数据库表?
    合并列数不同的表 当尝试合并列数不同的数据库表时,可能会遇到挑战。一种直接的方法是在列数较少的表中,为缺失的列追加空值。 例如,考虑两个表,表 A 和表 B,其中表 A 的列数多于表 B。为了合并这些表,同时处理表 B 中缺失的列,请按照以下步骤操作: 确定表 B 中缺失的列,并将它们添加到表的末...
    编程 发布于2025-03-12
  • PHP阵列键值异常:了解07和08的好奇情况
    PHP阵列键值异常:了解07和08的好奇情况
    PHP数组键值问题,使用07&08 在给定数月的数组中,键值07和08呈现令人困惑的行为时,就会出现一个不寻常的问题。运行print_r($月份)返回意外结果:键“ 07”丢失,而键“ 08”分配给了9月的值。此问题源于PHP对领先零的解释。当一个数字带有0(例如07或08)的前缀时,PHP将...
    编程 发布于2025-03-12

免责声明: 提供的所有资源部分来自互联网,如果有侵犯您的版权或其他权益,请说明详细缘由并提供版权或权益证明然后发到邮箱:[email protected] 我们会第一时间内为您处理。

Copyright© 2022 湘ICP备2022001581号-3