本文共 3031 字,大约阅读时间需要 10 分钟。
论文地址:https://ieeexplore.ieee.org/abstract/document/9414851
会议:ICASSP2021CycleGAN-VC3中使用的TFAN模块会大大增加计算量。作为替代,本文提出MaskCycleGAN-VC,它是CycleGAN-VC2的一种扩展,使用一种FIF(filling in frames)进行训练。使用FIF,可以将时域Mask应用于输入的Mel频谱图并且可以激励转换器根据周围的帧来填充丢失的帧。FIF能够以自监督的方式学习时频结构,无需其他模块。
As an alternative, we propose MaskCycleGAN-VC, which is another extension of CycleGAN-VC2 and is trained using a novel auxiliary task
called filling in frames (FIF). With FIF, we apply a temporal mask to the input mel-spectrogram and encourage the converter to fill in missing frames based on surrounding frames.This task allows the converter to learn time-frequency structures in a self-supervised manner and eliminates the need for an additional module such as TFAN.
MaskCycleGAN-VC是CycleGAN-VC2的扩展,它使用filling in frames(FIF)进行训练。我们对输入的Mel频谱图应用时序Mask,并鼓励转换器根据周围的帧填充丢失的帧。
FIF允许转换网络通过补全过程以自我监督的方式学习时频特征结构 存在的问题:CycleGAN-VC2使用MCEP进行转换再重建,这会导致转换过程中时频信息丢失和无法使用神经网络声码器。提出的CycleGAN-VC3虽然能使用TFAN弥补时频损失的问题,但计算量过于庞大。As an alternative, we propose MaskCycleGAN-VC, which is another extension of CycleGAN-VC2 and is trained using a novel auxiliary task called filling in frames (FIF). With FIF, we apply a temporal mask to the input mel-spectrogram and encourage the converter to fill in the missing frames based on the surrounding frames.
Similarly, FIF allows the converter to learn the time-frequency feature structure in a self-supervised manner through a complementation process.
对抗损失(adversarial loss):让转换后的特征 G X − Y ( x ) G_{X-Y}(x) GX−Y(x)与目标 y y y难以区分
循环一致性损失(Cycle-consistency loss):在无监督的情况下,找到循环一致性约束内的最佳伪对 身份映射损失(Identity-mapping loss):用来增强对输入结构的部分保留,保留的频谱中的语义特征。 二次对抗损失(Second adversarial loss):对生成器生成的特征进行二次鉴别(CycleGAN-VC2) 则CycleGAN-VC2的总损失函数为:在进行转换的过程中使用全为1的Mask,即没有帧丢失的情况下进行转换。
数据集:VCC2018
输入特征:80维Mel频谱 声码器:预训练MelGANMCD/KDSD(Kernel DeepSpeech Distance :该值可计算DeepSpeech2特征空间内的最大平均差异,并显示出与人类判断有更好的相关性)
表1在比较不同尺寸的mask中进行比较
FIF X:mask所占的百分比 FIF 0-X:mask所占比例的大小随机在[0,X%] 表2在比较不同类型的mask中进行比较 FIF:连续帧mask FIF_NS:非连续帧mask(每帧独立,并且随机选取) FIS:连续的频带mask FIP:类似于dropout的某个点的Mask 表3.不同模型的比较分别对转换后语音的自然度和相似度进行测试。进行偏好性测试,只给出两个选项,必须选择其中的一个。对MaskCycleGAN-VC和V2、MaskCycleGAN-VC和V3进行测试。
图1 自然度测试 图2 相似性测试MaskCycleGAN-VC是CycleGAN-VC2的改进,它在不需要TFAN的情况下可以学到时频结构,引入了FIF,允许转换器以自监督的形式进行学习,同时还减少了运算量。
转载地址:http://okgwb.baihongyu.com/