mp3中的频率 44100 Hz ，比特 16 Bits ，码率 128 Kbps ？它们三个的关系是怎么样的？怎么换算？

发布网友发布时间：2022-05-19 02:41

共1个回答

热心网友时间：2024-03-03 11:32

MP3各项参数的意义频率（如44100Hz），比特（如16Bits），码率（如128Kbps）
首先了解一下：音频采样

数码音频系统是通过将声波波形转换成一连串的二进制数据来再现原始声音的，实现这个步骤使用的设备是模/数转换器（A/D）它以每秒上万次的速率对声波进行采样，每一次采样都记录下了原始模拟声波在某一时刻的状态，称之为样本。将一串的样本连接起来，就可以描述一段声波了，把每一秒钟所采样的数目称为采样频率或采率，单位为HZ（赫兹）。采样频率越高所能描述的声波频率就越高。采样率决定声音频率的范围（相当于音调），可以用数字波形表示。以波形表示的频率范围通常被称为带宽。要正确理解音频采样可以分为采样的位数和采样的频率。

1.频率（如44100Hz）：音频采样级别（音频采样频率）

采样位数可以理解为采集卡处理声音的解析度。这个数值越大，解析度就越高，录制和回放的声音就越真实。我们首先要知道：电脑中的声音文件是用数字0和1来表示的。所以在电脑上录音的本质就是把模拟声音信号转换成数字信号。反之，在播放时则是把数字信号还原成模拟声音信号输出。采集卡的位是指采集卡在采集和播放声音文件时所使用数字声音信号的二进制位数。采集卡的位客观地反映了数字声音信号对输入声音信号描述的准确程度。8位代表2的8次方--256，16位则代表2的16次方--64K。比较一下，一段相同的音乐信息，16位声卡能把它分为64K个精度单位进行处理，而8位声卡只能处理256个精度单位，造成了较大的信号损失，最终的采样效果自然是无法相提并论的。
如今市面上所有的主流产品都是16位的采集卡，而并非有些无知商家所鼓吹的64位乃至128位，他们将采集卡的复音概念与采样位数概念混淆在了一起。如今功能最为强大的采集卡系列采用的EMU10K1芯片虽然号称可以达到32位，但是它只是建立在Direct Sound加速基础上的一种多音频流技术，其本质还是一块16位的声卡。应该说16位的采样精度对于电脑多媒体音频而言已经绰绰有余了。

2.比特（如16Bits）：音频采样的位数

数码音频系统是通过将声波波形转换成一连串的二进制数据来再现原始声音的，实现这个步骤使用的设备是模/数转换器（A/D）它以每秒上万次的速率对声波进行采样，每一次采样都记录下了原始模拟声波在某一时刻的状态，称之为样本。将一串的样本连接起来，就可以描述一段声波了，把每一秒钟所采样的数目称为采样频率或采率，单位为HZ（赫兹）。采样频率越高所能描述的声波频率就越高。
采样频率是指录音设备在一秒钟内对声音信号的采样次数，采样频率越高声音的还原就越真实越自然。在当今的主流采集卡上，采样频率一般共分为22.05KHz、44.1KHz、48KHz三个等级，22.05 KHz只能达到FM广播的声音品质，44.1KHz则是理论上的CD音质界限，48KHz则更加精确一些。对于高于48KHz的采样频率人耳已无法辨别出来了，所以在电脑上没有多少使用价值。
5kHz的采样率仅能达到人们讲话的声音质量。
11kHz的采样率是播放小段声音的最低标准，是CD音质的四分之一。
22kHz采样率的声音可以达到CD音质的一半，目前大多数网站都选用这样的采样率。
44kHz的采样率是标准的CD音质，可以达到很好的听觉效果。

3.码率（如128Kbps）：码率就是比特率的另一种叫法，也叫位速

比特是二进制单位，就是字节，8位二进制为1比特。位速是指在一个数据流中每秒钟能通过的信息量。您可能看到过音频文件用 “128–Kbps MP3” 或 “64–Kbps WMA” 进行描述的情形。Kbps 表示 “每秒千字节数”，因此数值越大表示数据越多：128–Kbps MP3 音频文件包含的数据量是 64–Kbps WMA 文件的两倍，并占用两倍的空间。（不过在这种情况下，这两种文件听起来没什么两样。原因是什么呢？有些文件格式比其他文件能够更有效地利用数据，64–Kbps WMA 文件的音质与 128–Kbps MP3 的音质相同。）需要了解的重要一点是，位速越高，信息量越大，对这些信息进行解码的处理量就越大，文件需要占用的空间也就越多。
为项目选择适当的位速取决于播放目标：如果您想把制作的 VCD 放在 DVD 播放器上播放，那么视频必须是 1150 Kbps，音频必须是 224 Kbps。典型的 206 MHz Pocket PC 支持的 MPEG 视频可达到 400 Kbps—超过这个限度播放时就会出现异常。

VBR(Variable Bitrate)动态比特率。也就是没有固定的比特率，压缩软件在压缩时根据音频数据即时确定使用什么比特率。这是Xing发展的算法，他们将一首歌的复杂部分用高Bitrate编码，简单部分用低Bitrate编码。主意虽然不错，可惜Xing编码器的VBR算法很差，音质与CBR相去甚远。幸运的是，Lame完美地优化了VBR算法，使之成为MP3的最佳编码模式。这是以质量为前提兼顾文件大小的方式，推荐编码模式。

ABR(Average Bitrate)平均比特率，是VBR的一种插值参数。Lame针对CBR不佳的文件体积比和VBR生成文件大小不定的特点独创了这种编码模式。ABR也被称为“Safe VBR”，它是在指定的平均Bitrate内，以每50帧(30帧约1秒)为一段，低频和不敏感频率使用相对低的流量，高频和大动态表现时使用高流量。举例来说，当指定用192kbps ABR对一段wav文件进行编码时，Lame会将该文件的85%用192kbps固定编码，然后对剩余15%进行动态优化：复杂部分用高于192kbps来编码、简单部分用低于192kbps来编码。与192kbps CBR相比，192kbps ABR在文件大小上相差不多，音质却提高不少。ABR编码在速度上是VBR编码的2到3倍，在128-256kbps范围内质量要好于CBR。可以做为VBR和CBR的一种折衷选择。

CBR(Constant Bitrate)，常数比特率，指文件从头到尾都是一种位速率。相对于VBR和ABR来讲，它压缩出来的文件体积很大，但音质却不会有明显的提高。
对MP3来说Bitrate是最重要的因素，它用来表示每秒钟的音频数据占用了多少个bit(bit per second,简称bps)。这个值越高，音质就越好。

心理声学音频压缩
心理声学一词似乎很令人费解，其实很简单，它就是指“人脑解释声音的方式”。压缩音频的所有形式都是用功能强大的算法将我们听不到的音频信息去掉。例如，如果我扯着嗓子喊一声，同时轻轻地踏一下脚，您就会听到我的喊声，但可能听不到我踏脚的声音。通过去掉踏脚声，就会减少信息量，减小文件的大小，但听起来却没有区别。

(附:心理视觉视频压缩
心理视觉视频压缩与和其对等的音频压缩相似。心理视觉模型去掉的不是我们听不到的音频数据，而是去掉眼睛不需要的视频数据。假设有一个在 60 秒的时间内显示位于同一位置的一把椅子的未经压缩的视频片段，在每帧图像中，都将重复这把椅子的同一数据。如果使用了心理视觉压缩，就会把一帧图像中椅子的数据存储下来，以在接下来的帧中使用。这种压缩类型—叫做“统计数据冗余”—是 WMV、MPEG 和其他视频格式用于压缩视频并同时保持高质量的一种数学窍门。)

一首MP3音乐主要有这么几个参数：频率，比特，码率，长度等。
要理解这些东西，还需要说到音乐文件是怎么在计算机上存储的。请看：

让我们来看看一个很短的例子。要把自然界的模拟声音变成计算机存储的数字文件，需要进行模、数转换。如果按CD质量保存，所以你以44.1KHz的采样频率，立体声，每个采样值16比特的方式进行采样。44.1KHz意味着每秒钟有44100个采样值从你的声音卡（或输入文件）里出来。乘以2是因为你有两个通道。再乘以2是因为每个采样值有两个字节（这是16比特的意思）。那首歌总共会占据：

44100 （样本值/秒） * 2（两个通道）* 2（每样本值两个字节）*60（每分钟60秒） =10584000 （字节）

压缩率，比特率和质量

因为压缩率是比较难以测量，专家们在谈及压缩的强度时使用术语比特率。比特率表示一秒的声音数据会消耗的平均BITS的数量。这里的通常单位是KBPS，即每秒1000 BITS.

在CD上的数字音频信号，比特率是1411.2KBPS。使用了MPEG-2ACC，如同CD音质的声音质量可以达到96KBPS的比特率。

一首标准的MP3，频率，比特，码率这几个参数的值一般都是这样的：44100 Hz，16 Bits，128 Kbps.需要声明的是比特和比特率是不一样的概念：比特就是每个采样值用几比特的二进制代码表示，一般都是8比特，因为是2个通道，所以是16比特。其中码率就是比特率的另一种叫法。128Kbps的意思就是每秒钟消耗128比特的存储空间

说说立体声吧：我们人的耳朵有两个，当一个声源发出声音的时候，因为我们的两只耳朵分别接受到声音，而且因为声音传输的距离不同，造成给两只耳朵的感觉就不同，我们人就通过这二者的差别来判断声源的位置。如果只有一只耳朵的话，那么我们不能判断声源的位置，只能知道声音的大小。立体声音乐至少需要两个通道，当然可以有很多个，来保存不同位置的声音信息，我们听起来就有一种身临其境的感觉。如果我们听的是单声道音乐，给我们的感觉就是声源始终在我们脑袋中间位置。假如你玩立体声的射击游戏，你可以真实的感觉子弹是从哪里打到你身上。

flv转换mp3或者录制MP3的时候，只有比特这个参数影响生成文件的大小，所以采样率尽量选高点吧，声音层次感更清楚。