判断两段声音是否一致需要测量哪些要素?

发布网友发布时间：2022-05-15 00:11

共3个回答

热心网友时间：2023-11-12 00:22

声音四要素是：音强、音高、音色和波形。两段声音是一致的测度有很多种，比如欧拉距离，KL距离，甚至马拉诺比斯距离，采用不同的测度方式得到的结果都是不一样的。其次，采用什么样的信号表示，声音可以有时域表示（时域信号），可以有时频域表示（短时傅里叶变换），甚至可以有变窗长的时频分析方法。一般情况，使用欧拉距离在时频域比较是比较可靠地。振幅，频率，可能还有相位，人耳的话，好像对相位不敏感。显然重放设备也要求有较好的瞬态跟随能力,不然就会引起乐音自然包络的畸变。

热心网友时间：2023-11-12 00:23

考虑到不同音源采样率的不同，首先做统一的 SRC 处理，将两段音源转换至同一采样率下；从转换后的两段数据中，分别提取出两份疑似相同的片段，并根据实际情况对两份采样进行预处理，例如低通滤波（以减小有损压缩对高频成分的影响）或直接将这两份采样转换为动态功率谱形式（也可以理解为将该采样数据直接转换至频域下）；对这两份数据进行相关性计算，通过相关系数计算结果判别是否为同一录音。提到的反相相加不失为一种应用上简单易行的方法，但如果要追求更加严格且有说服力的结果的话，一个接近 1（亦或 -1）的相关系数计算结果绝对可以胜任此工作；而检测MD5码则不可行，因为现实中遇到的情况往往会很复杂，绝非只要检测看每个比特是否一致就能判断的——例如两份从同一张CD上转录出的文件，若是出现数字电平不一致，采样率不一致，比特率不一致...任意一种可能，最后都无法得到两份能通过 MD5 校验的文件。第二种可能：有哪些声音中的因素，即使改变了，人听上去还是觉得这两段声音是一样的；直接说：相位。并不是说相位因素人耳绝对听不出来，只是说相位因素对人的听觉系统来说非常不敏感（相对于人的视觉系统来说），尤其是从声音文件上即存在的微量的相位差，对人耳来说很难发现，但是这些相位差对采样数据来说则会造成巨大的差别，以至于直接套用上一种做法时，计算时域形式下的相关系数计算结果会不靠谱。靠动态功率谱形式的数据来按照上述方法处理的话，理论上讲结果会相对靠谱——因为其所受相位因素的影响极小。

热心网友时间：2023-11-12 00:23

从测量要素出发并不具备可操作性，声音的要素：响度、音高、频谱分布，测量某一时间点的要素是可行的，但声音是跟随时间发展的，要测量要素，需要把声每一时刻都进行比对，这样要做无穷多的比对，不可能实现。换个思路就简单多了，因为声音是通过波来传播，那么波就是声音的本质，只需要比对两段声音的波形即可知道它们是否一致。技术上最简单的办法是将其中一段反相，与另一段声音合并，若结果无声，则它们完全一致。在数字音频处理上，将一段音频反相后，与另一段在另一轨同样电平的情况下同时播放，看结果是否有声音，即可确定两端音频是否一样。立体声音频需要将两个声道同时反相，与另一音频波形对比。