Wespeaker v1.2.0 发布:新增SSL Recipe,NIST SRE 数据集支持, PLDA...
发布网友
发布时间:2024-10-02 08:18
我来回答
共1个回答
热心网友
时间:2024-10-02 08:20
Wespeaker 是一个说话人表征学习框架,由 wenet 社区联合学界和业界共同开发,旨在提供高质量、轻量级、面向产品特性的解决方案。发布以来,它得到了广泛关注和积极贡献。遵循原则,Wespeaker 在最新版本 v1.2.0 中进行了多方面更新,以适应工业级数据训练需求,构建更强的统一基线,并支持高效、易用的工业部署。
更新内容包括支持工业级数据训练、有竞争力的标准集合基线系统、工程考虑与模型部署。在利用大规模无标签数据方面,新增了 SSL 训练功能,此功能可在 VoxCeleb Recipe V3 中尝试。自监督学习方法允许从无标签数据中发掘潜在标签信息,用于实现数据的自我监督训练。
具体而言,Wespeaker 支持三种自监督学习算法:SimCLR、MoCo 和 DINO。SimCLR 是基于对比学习的经典框架,通过在每个 batch 中随机截取两个片段并进行不同数据增强,构造正负样本对进行优化。MoCo 则通过引入记忆银行和动量编码器,以在有限算力条件下提高性能。DINO 则不依赖负样本进行优化,通过最大化正样本对之间的相似度完成模型优化。
此外,Wespeaker 更新中还包括对 NIST SRE 数据集的支持,这是一个长期举办的说话人识别评估活动,提供了包含不同噪声场景和语种的电话信道数据集合,增加了任务的挑战性。相较于 VoxCeleb 数据集,NIST SRE 数据集侧重于 8k Hz 电话信道数据。
Wespeaker 的改进使得其在处理 SRE 数据时更加高效和准确。在 SRE16 预处理方法中,结果表现出了显著提升。Wespeaker 的预训练模型已被应用于多个音色建模任务,包括语音数据预处理流程。例如,在 WenetSpeech 数据集上,使用 Wespeaker 预训练的说话人表征模型,通过聚类算法构建了局部伪说话人标签,用于过滤包含两个或以上说话人的语音短句,从而为语音合成等任务提供了高质量数据。