发布网友 发布时间:2024-10-01 03:49
共1个回答
热心网友 时间:2024-11-14 07:55
谷歌2023年在arxiv上发布的一项研究[1]探讨了如何通过最小监督实现高保真度的文本转语音(TTS)技术。研究的核心是开发一个多说话人系统,它由两大部分组成:阅读模块(Reading)和说话模块(Speaking)。
阅读模块负责将文本转化为高层面的语义标记,通过预先训练和回译技术降低训练难度,主要依赖纯语音数据。说话模块则利用预训练的语义标记生成声学标记,将语义信息转化为声音。为了控制说话人的身份,研究者运用了示例提示技术,只需15分钟的对齐语音数据,就能复制指定说话人的声音特性。
该系统利用音频LM中的离散语音表征,包括基于w2v-Bert的自监督语音表征模型(用于生成语义标记)和SoundStream的声学编码器(用于重建语音)。经过LibriTTS和Ljspeech数据集的训练,SPEAR-TTS展现出显著性能:在测试集上的字符错误率(CER)仅为1.92%,能生成不同声音、精确克隆3秒音频,并接近于真实声音的高评价。
研究者通过预训练和回译技术优化监督学习效率,使用BART/T-5风格的预训练模型和ASR模型提取语音特征。说话阶段,通过Transformer模型和随机声音条件增加生成多样性,通过示例提示技术控制音色,确保音频质量和一致性。
LibriLight用于预训练和训练,Ljspeech则用于模型的微调,确保了在最小监督下仍能达到接近行业的顶尖水平。