发布网友 发布时间:2022-05-15 00:11
共3个回答
热心网友 时间:2023-11-12 00:22
声音四要素是:音强、音高、音色和波形。两段声音是一致的测度有很多种,比如欧拉距离,KL距离,甚至马拉诺比斯距离,采用不同的测度方式得到的结果都是不一样的。其次,采用什么样的信号表示,声音可以有时域表示(时域信号),可以有时频域表示(短时傅里叶变换),甚至可以有变窗长的时频分析方法。一般情况,使用欧拉距离在时频域比较是比较可靠地。振幅,频率,可能还有相位,人耳的话,好像对相位不敏感。显然重放设备也要求有较好的瞬态跟随能力,不然就会引起乐音自然包络的畸变。
热心网友 时间:2023-11-12 00:23
考虑到不同音源采样率的不同,首先做统一的 SRC 处理,将两段音源转换至同一采样率下;从转换后的两段数据中,分别提取出两份疑似相同的片段,并根据实际情况对两份采样进行预处理,例如低通滤波(以减小有损压缩对高频成分的影响)或直接将这两份采样转换为动态功率谱形式(也可以理解为将该采样数据直接转换至频域下);对这两份数据进行相关性计算,通过相关系数计算结果判别是否为同一录音。提到的反相相加不失为一种应用上简单易行的方法,但如果要追求更加严格且有说服力的结果的话,一个接近 1(亦或 -1)的相关系数计算结果绝对可以胜任此工作;而检测MD5码则不可行,因为现实中遇到的情况往往会很复杂,绝非只要检测看每个比特是否一致就能判断的——例如两份从同一张CD上转录出的文件,若是出现数字电平不一致,采样率不一致,比特率不一致...任意一种可能,最后都无法得到两份能通过 MD5 校验的文件。第二种可能:有哪些声音中的因素,即使改变了,人听上去还是觉得这两段声音是一样的;直接说:相位。并不是说相位因素人耳绝对听不出来,只是说相位因素对人的听觉系统来说非常不敏感(相对于人的视觉系统来说),尤其是从声音文件上即存在的微量的相位差,对人耳来说很难发现,但是这些相位差对采样数据来说则会造成巨大的差别,以至于直接套用上一种做法时,计算时域形式下的相关系数计算结果会不靠谱。靠动态功率谱形式的数据来按照上述方法处理的话,理论上讲结果会相对靠谱——因为其所受相位因素的影响极小。
热心网友 时间:2023-11-12 00:23
从测量要素出发并不具备可操作性,声音的要素:响度、音高、频谱分布,测量某一时间点的要素是可行的,但声音是跟随时间发展的,要测量要素,需要把声每一时刻都进行比对,这样要做无穷多的比对,不可能实现。换个思路就简单多了,因为声音是通过波来传播,那么波就是声音的本质,只需要比对两段声音的波形即可知道它们是否一致。技术上最简单的办法是将其中一段反相,与另一段声音合并,若结果无声,则它们完全一致。在数字音频处理上,将一段音频反相后,与另一段在另一轨同样电平的情况下同时播放,看结果是否有声音,即可确定两端音频是否一样。立体声音频需要将两个声道同时反相,与另一音频波形对比。