您现在的位置是：亿华云 > 人工智能

时域音频分离模型登GitHub热榜，效果超传统频域方法

亿华云2025-10-03 20:32:18【人工智能】7人已围观

简介本文经AI新媒体量子位公众号ID:QbitAI）授权转载，转载请联系出处。用AI对歌曲音轨的分离研究很多，不过大多数都是在频域上进行的。这类方法先把声音进行傅立叶变换，再从频谱空间中把人声、乐曲声分别

本文经AI新媒体量子位（公众号ID:QbitAI）授权转载，时域转载请联系出处。音频

用AI对歌曲音轨的分离方法分离研究很多，不过大多数都是模型在频域上进行的。这类方法先把声音进行傅立叶变换，榜效再从频谱空间中把人声、果超乐曲声分别抽离出来。传统

比如，频域上个月在GitHub上大热的时域Spleeter，就是音频这样。

但是分离方法由于要计算频谱，这类工具存在着延迟较长的模型缺点。虽然之前也有一些对声音波形进行处理的榜效方法，但实际效果与频域处理方法相差甚远。果超

最近，传统Facebook AI研究院提供了两种波形域方法的PyTorch实现，分别是Demucs和Conv-Tasnet，而且测试结果均优于其他常见的频域方法，目前登上了GitHub日榜

效果对比

话不多说，我们先来听听这段30s音频的分离实测效果。

vocals.mp3

00:30.069

来自量子位

这两种方法在MusDB上的训练结果已经接近了频域方法的亿华云计算最优结果，加入150首额外的训练数据后，总体信号失真比（overall SDR）达到了6.3，超过了其他所有方法。

安装与使用方法

先将代码下载到本地，根据自己用CPU还是GPU来选择不同的安装环境：

conda env update -f environment-cpu.yml # if you don’t have GPUs conda env update -f environment-cuda.yml # if you have GPUs conda activate demucs

在代码库的根目录下运行以下代码（Windows用户需将python3换为python.exe）：

python3 -m demucs.separate --dl -n demucs PATH_TO_AUDIO_FILE_1 [PATH_TO_AUDIO_FILE_2 ...] # for Demucs python3 -m demucs.separate --dl -n tasnet PATH_TO_AUDIO_FILE_1 ... # for Conv-Tasnet # Demucs with randomized equivariant stabilization (10x slower, suitable for GPU, 0.2 extra SDR) python3 -m demucs.separate --dl -n demucs --shifts=10 PATH_TO_AUDIO_FILE_1

其中—dl将自动下载预训练模型，-n后的参数代表选用的预训练模型类型：

demucs

：表示在MusDB上进行训练的Demucs；

demucs_extra

：使用额外数据训练的Demucs；

tasnet

：表示在MusDB上进行训练的Conv-Tasnet；

tasnet_extra：使用额外数据训练的Conv-Tasnet。

在—shifts=SHIFTS执行多个预测与输入和平均他们的随机位移（又名随机等变稳定）。这使预测SHIFTS时间变慢，但将Demucs的精度提高了SDR的0.2点。它对Conv-Tasnet的影响有限，因为该模型本质上几乎是等时的。原始纸张使用10的值，尽管5产生的增益几乎相同。默认情况下禁用它。源码下载