【论文阅读】TimbreTron : A WaveNet (Cycle GAN(CQT(audio ))) pipeline for musical timbre transfer

xiaoxiao2025-10-13  7

本文来自于ICLR2019。

文章引入

本文讲的是乐器音色转换,即将一种乐器演奏的乐曲转换为另外一个乐器的音色,使转换后的乐音听起来像是另一个乐器所演奏的。提出了一种音频处理工作流程:TIMBRETRON,主要包含三个方面的工作:

使用常数Q变换,做为音频的表征,即深度模型的输入使用CycleGAN的一个变种作为音色转换的模型使用WaveNet-Synthesizer来合成高质量的音频波形

音色是人类对音乐的感知,即使是使用相同的音高和时间弹奏同一个音符,人们也能够通过音色区分出是用何种乐器弹奏的。对音色建模很困难,音色的复杂性也导致了它没有简单的定义,音色曾经被定义为心理声学家的多维废纸篓类别,即任何无法标记音高或响度的。单音符在单音调的上的音色对音量,时间,演奏乐器的方式具有非线性依赖关系。针对音色建模和合成尽管已有大量研究,但是现在管弦乐演奏家为模拟乐器所使用的最好的乐音库仍然来自于对真实乐器演奏的作品的极度小心的采样。建模和操控音色,对希望试验不同的声音,听到他们的音乐用不同的乐器演奏出来或者为多个乐器作曲的音乐家来说具有重大意义。

本文考虑不同乐器演奏的音频片段之间的高质量音色转换。灵感来源于近期神经网络在图像风格迁移上的成功应用。比较吸引人的一种方式是将音频的时间-频率表示当做图片,直接应用于基于图像的风格迁移,完成音色转换。将神经网络生成的频谱图转换成音频波形却是一个主要的难点,因为需要精确的重建波形需要相位信息,而相位信息却难以估计出来,现有的估计相位信息的方法会产生特征伪像,不利于合成高质量的音频波形。

近年来,基于音频的生成模型在生成高质量的音频波形上取得了快速的进展。WaveNet, SampleRNN和Tacotron2成功地应用于建模人类语音和进行端到端语音转换。WaveNet能够利用音频的抽象表征作为约束条件非常重要,因为这使得人们能够操作音频的高层听觉表征,并且从高层表征重建出原始波形,这在以前是不可能实现的。Tacotron2使用预测输出的梅尔频谱作为WaveNet的约束条件,在语音领域取得了很大成功。我们将这种方法用于音乐领域。TimbreTron是使用非平行数据集的基于常数Q变换的音色转换,并且可以输出高质量的音频波形。常数Q变换尤其适合乐器音色转换,因为它具有音高等变性,并且能够同时在低频率分辨率时获得较高的频率分辨率,在高频率时获得高时间分辨率,STFT却没有这种特点。 作者所提的工作流程如下图,将原始波形经过常数Q变换,在利用CycleGAN进行音色转换,CycleGAN输出带有目标乐器音色特征的频谱,在将该频谱通过WaveNet声码器合成音频波形。

作者说该模型能够在某些乐器上成功地进行音色转换,即在某些乐器上音色转换后合成的音频很像目标乐器的音色,这里最好注意一下这个某些乐器是什么,我们后面再说。

背景介绍

本文工作要用到的相关概念,原理的解释 该部分介绍一些本文用到的相关基础知识,主要包括:1.短时傅里叶变换;2.常数Q变换;这些常识性的基础知识不是论文的关注重点,重点在于利用这些基础的音频特征表示方法在我们的工作流程中是否有效。 值得一提的是,本文用彩虹谱来可视化常数Q变换的结果。 如下图第三张 ,第四张,横轴表示时间,纵轴表示频率,不同颜色代表不同的频率强度。彩虹图可以显示出微小的音色特征。 3.WaveNet是一个自回归生成模型,能够生成高质量的原始音频波形。该模型包含带有残差和跳跃连接的堆叠扩大因果卷积层,WaveNet使用卷积处理时间步,解决了其他模型在处理时间步上代价大的问题。也可以对WaveNet进行修改使其具有条件生成音频波形的能力。例如,WaveNet可以使用低层的声学特征(音素,基音频率,频谱图)进行训练,可以生成用于TTS系统的自然的,高质量的语音。限制WaveNet的因素在于它生成波形的代价比较高,不太适合在训练阶段需要生成音频样本的模型(比如:训练GAN时定期采样)。 4.GAN和CycleGAN,相关介绍很多,这里不再赘述。

工作流程

本部分详细介绍了TimbreTron三步操作,先介绍第一步和第三部,即使用CQT作为音频表征是可行的,并且使用WaveNet能从CQT表征转换为音频波形;第二步介绍利用CycleGAN进行音色转换,重点介绍对CycleGAN的改动,其中改动主要有四点: 改动1:使用转置卷积(deconv)的网络产生Checkerboard artifacts,导致生成的音频包含大量噪音,故去掉转置卷积,换位最近邻插值在加上普通卷积层。 改动2:为了保证生成器学到特征图中音高一致性,改变了原先CycleGAN的判别器取图片的一小部分作为输入的做法,即使用整个频谱图作为判别器的输入。 改动3:改动2导致了判别器过于强大,模型训练不稳定,故加入梯度惩罚,限制判别器的梯度在一个较小的范围内。 改动4:加入恒等损失,来保留更多的音乐内容,获得更好的音频质量。

实验

有两个主要的实验:

对音频进行音高偏移和节拍变化来验证CQT特征的有效性测试TimbreTron的整个工作流程(脱离实验来验证模型结构的有效性)

作者提供了模型的输出样本

数据集

包含MIDI数据集,和真是音色数据集,每个数据集划分为训练集合测试集。

实验设置

实验设置文中并没有详细介绍,比如模型结构,数据集的乐器种类。但是这并不影响他的创新点的展示,比如在CycleGAN的介绍中,对CycleGAN进行了一些修改,每一处修改都紧扣研究的问题:

去掉CycleGAN的转置卷积,换成了最近邻插值+卷积层判别式使用整个频谱图梯度惩罚一致性损失 并且为了说明所做的修改是有效的,作者进行了脱离实验,验证了所做的修改是可行的。

实验结果评估

实验全部采用主观评测,使用调查问卷的形式进行。

比较CQT和STFT特征的有效性(有没有用的问题)音色转换结果评估(像不像的问题)

对于1,使用主观评测,做调查问卷,每个参与调查问卷的人都要听三段音频:用乐器演奏的音乐片段、使用TimberTron生成 的音频片段A和使用SFTF特征合成的音频片段B,然后问:在你看来,A和B哪一个更像用乐器演奏出来的。一般来说,听起来更像的,音色转换的越好。本实验为了比较CQT和STFT特征的有效性,所以设置了两组实验以进行对比,当然两组实验都使用的TimeberTron流程。第一组是使用STFT特征+WaveNet声码器,第二组使用STFT特征+Griffinlim声码器。下面的图看起来有点懵?不错,这个图画的有点问题,注意到下面这个图的目的在于比较CQT特征和STFT特征,第一纵轴表示实验组,也就是第一组实验使用STFT+WaveNet,第二组使用使用STFT+Griffinlim。

为了解释的更加清楚一些,我们只看第二横轴,也就是STFT+WaveNet架构所在的横轴(第一组实验),再看纵轴,排除最左边的列,剩余三列:CQT,same,STFT。CQT代表受试者选择本文提出的TimbreTron方法的比例,same表示选择本文提出的TimbreTron和STFT+WaveNet的方法的人数比例没有差别,STFT表示选择STFT架构方法的比例。 这样解释第一组是没有问题的,但是第二组呢?我们看第二组实验,也就是STFT+Griffinlim所在的行,这时候CQT对应的列代表人们选择本文提出的TimbreTron(CQT+WaveNet)方法的比例。而STFT所在的列表示选择STFT+Griffinlim所占的比例,很明显选择CQT+WaveNet的比例高于STFT+Griffinlim方法的比例,但是这能说明CQT特征比STFT特征好吗?当然不能!因为声码器一个是WaveNet,另一个是Griffinlim,他们是不同的,怎么能说CQT比STFT好呢,还有可能是声码器一个好,一个坏呢!所以这是本图中的问题所在。

对于2,又分为两组实验:第一组是验证是否保留了音乐内容;第二组是验证是否转换了音色;作者使用了平行数据集来验证是否保留了是否保留的音乐内容,如下图所示,WaveNet生成音频波形时使用beam搜索,TimbreTron生成的音频片段和真实的音频片段有大概82.2%的比例是相似的,TimbreTron生成的音频片段和原始音频片段有71.66%的比例内容是相似的,这说明TimbreTron确实保留了音频内容 下图是在生成音频时没有进行beam搜索,其结论和上图是一致的。

那么是否转换了音色呢?如下图,使用平行数据集进行比较生成的音频和真值到底有多像。注意到生成的音频和原始的音频应该越不像越好。注意到,Answer的最后一列是"Do not know",这个指标很迷惑,听一段音频像不像原始音频,答案可以是:像,很像,不像,很不像,“不知道”是什么鬼。

以上就是实验分析部分。

总结

本文介绍一种新的音色转换流程TimbreTron,即利用乐器音频的CQT特征输入到CycleGAN中,再利用WaveNet合成高质量的音频波形,通过实验验证和主观评测确定了CQT特征的有效性和对CycleGAN的修改是必须的,文中的评测主要是主观评测,应该安排一些客观比较,这样更具有说服力。注意到该音色转换是一对一的,即一对乐器之间训练一个模型,只能进行这两个乐器之间的音色转换,是否可以扩展为“多对多”的乐器音色转换。还要主要到文中说到在某些乐器之间能够进行转换,其中某些乐器是哪些,什么乐器可以相互转,什么乐器不可以相互转,转换失败的原因是什么?这些都是本文所没有提到的,有机会的话可以沿着本文提出的流程继续研究这些问题。

后记

看到论文评审结果结果出来了,把三位专家的评审意见贴出来,或许会有一些启发。 三位专家中两位给了这篇论文高分,表示接受,一位专家给了低分,表示拒绝。为什么会拒绝呢,我们看一下他给出的论文评审意见: 这篇论文提出了一种将特定乐器的音乐转换为另外一种乐器的模型。文章提出使用最初用于图像风格迁移的CycleGAN进行频谱图转换。使用WaveNet合成音频。 文章描述音色是正确的,音色是除了音高和音量之外描述乐器特征的全称。文章使用了两个非常主观的评价标准: 第一,模型是否迁移了足够多的目标乐器音色特征;第二, 模型生成的音频质量足够好吗。 下面是模型的问题: 第一,文章过于关注CQT和STFT特征的对比,而忽视了模型生成的音频的质量是否足够好,比如和PSOLA相比。 第二,更大的问题在于实验结果对比时,只有两种乐器之间的对比,小提琴和长笛,钢琴和大键琴。这些乐器之间的频谱包络不相同,但是他们在长时时变(longer-term temporal variations)非常相似,比如ADSR曲线(attack-decay-sustain-release)和抖音,在我看来这是乐器非常重要的特点,但论文里却没有提及。(它们是否能被称为“音色”,我不太清楚,但是没有将它们进行转换,就不能说是完全意义上的乐器转换) 第三,对WaveNet使用"beam-search"很不满意,为什么不去修改WaveNet,使他变得更好呢? 个人觉得说的评审的意见很深刻,第一,二条是非常值得关注的问题,文章的评价都是主观评测,这会导致实验结果相比于客观评测缺乏说服力,作者如果能够给出CQT和STFT特征的客观评测的话,就可以减少CQT和STFT特征对比在文章所占的比例。第二条,确实作者在文章中提到了能够进行某些乐器之间的转换,实验结果给的是小提琴和长笛,钢琴和大键琴的相互转换,那么其他的乐器怎么样呢?作者并没有细说,没有深入分析不同乐器在模型上的结果差异和导致这些差异的原因,这对于音色转换来说确实很重要。

剩余两位专家给的意见是通过,就不用细说了,通常要拒绝一篇论文要做很多工作,需要评审专家仔细分析文章,每个理由都要有理有据,而如果要通过一篇文章却很简单,提一些文章结构,语法,拼写错误上的问题就可以了,相对轻松。

转载请注明原文地址: https://www.6miu.com/read-5037831.html

最新回复(0)