正在加载中……
1
说一说关于MP3技术的一些事,以及声音心理学
电脑技术
2023/12/8 14:39:00
老贾/吉他福
访问量
342
支持
1
中立
1
反对
1
朗读功能:
朗读
稍慢
稍快
很快
极快
超快
定速
暂停
继续
停止
以下内容采集整理自网络,仅供参考。 MP3技术 MP3是一种音频压缩技术。将音乐以1:10 甚至 1:12 的压缩率,压缩成容量较小的文件。 MP3是利用人耳对高频声音信号不敏感的特性,将时域波形信号转换成频域信号,并划分成多个频段,对不同的频段使用不同的压缩率,对高频加大压缩比(甚至忽略信号)对低频信号使用小压缩比,保证信号不失真。 这样一来就相当于抛弃人耳基本听不到的高频声音, 只保留能听到的低频部分,从而将声音用1∶10甚至1∶12的压缩率压缩。由于这种压缩方式的全称叫MPEG Audio Player3,所以人们把它简称为MP3。 根据MPEG规范的说法,MPEG-4中的AAC(Advanced audio coding)将是MP3格式的下一代。MP3音质 由于MP3文件通过因特网大量传播一些主要唱片厂商通过法律起诉Napster来保护它们的版权。 因为MP3是一种有损压缩格式,它提供了多种不同“比特率”(bit rate)的选项—也就是用来表示每秒音频所需的编码数据位数。典型的速度介于128kbps和320kbps(kbit/s)之间。 MP3与原始CD的区别。在许多情况下他们认为MP3音质太低是不可接受的,然而其他一些听众或者换个环境(如在嘈杂的车中或者聚会上)他们又认为音质是可接受的。 很显然,MP3编码的瑕疵在低端声卡或者扬声器上比较不明显,而在连接到计算机的高质量立体声系统,尤其是使用高保真音响设备或者高质量的耳机时则比较明显。MP3普及 资深编码工程师的话: mp3的潜力已经被大家挖掘得几乎枯竭了,mp3本身的构造已经限制了它无法在有大的提升了。 另外,不要看国内大家都一直坚持用mp3,那只是因为国内没有版权意识,大家几乎不买正版音乐而已。MP3压缩 MP3存在的目的是为了压缩PCM编码的立体声(双通道)音频流。这种音频流无损的时候最高的比特率是2 (通道) × 48k (采样点) × 16bps (每个采样点比特数) = 1,536 kbps。 绝大多数人听到的频率的极限就是20kHz,根据Nyquist定理,采样频率到40kHz就足够了。一般CD的采样频率也就是44.1kHz,比MP3支持的极限48kHz还要低。 当MP3采用320kbps比特率压缩的时候,绝大多数人已经区分不出和未压缩的音频有任何区别了。实际上只有极少数的金耳朵通过反复试听可以区别出来,而且是在他们听力最好的时候用最好的设备做到的。 对于绝大多数人来讲,播放320kbps的音频时,相比于数据本身的不完美,他们的播放器材对音质的影响要大得多,别指望10块钱的地摊耳机能区分出320kbps和未压缩音频的区别。即使是一万块钱的家庭音响,也很难区分出来。 更重要的一点,一般的无损压缩算法比如flac或者ape已经可以把上述的音频流降低到500~100kbps左右,而没有任何信息丢失。更高比特率的有损算法相对于这些无损压缩,除了编码解码速度能快点儿,已经没有任何优势了。追求完美的一定会用无损压缩去编码,而不会在乎多一点儿数据速率了。 确切来讲,官方标准的MP3是只支持到320kbps的。640kbps的MP3也有,但是非标准,而且相比于有损编码已经没有什么优势可言。 补充一点,除了MP3,也有更好的压缩算法存在。那一小撮追求完美的人,或者会用无损压缩,或者会用其它更好的有损压缩算法,比如Mpeg4 ALS。 至于Lame之后MP3的发展,坦率来讲,我不觉得MP3还有什么发展。整个音乐压缩存储编码从理论到方法到应用都已经非常成熟,多声道也早已经有Dolby和DTS搞得透透的了,再加上现在存储和带宽都这么便宜……MP3历史 MP3是一种音频压缩技术,全称是“动态影像专家压缩标准音频层面3”(Moving Picture Experts Group Audio Layer III),于1995年正式面世。 人类第一台MP3播放器,诞生于公元1998年,代号MPman F10。 那个年代,CD算奢侈品,磁带起码算轻奢,非正版都能顶一天饭钱,更要命的是,正版专辑往往就3首好听的歌,却要为不好听的歌付费。 之后,很多音乐人绕过传统唱片公司,直接通过互联网发布自己的作品,供人民免费听取,以此提高人气。 互联网上随意可下载的各种MP3音乐,也为百度的普及帮了大忙。 2010年环球、华纳、索尼三大国际唱片巨头控告百度MP3搜索侵权,索赔6350万元。 2003年~2006年,MP3进入黄金时代,美日韩三足鼎立,各品牌群魔乱舞。 MP4好理解,就是能播放mp4的mp3播放器,这MP5就玄幻了,纯粹是国内科技厂商卷出来的一个概念,据说可以看数字电视直播。 曾经有个同学买了一台MP5,我当时都看傻了,询问跟MP4有什么不同,答曰:还没有发现。 2007年,音乐手机开始普及,越来越多的人开始用手机听歌,毕竟方便,少一个物件,少一套充电器,随手就来; 再后来,智能手机逐渐普及,单纯的MP3播放器也就逐渐在历史舞台上沉寂了下去。MP3衰落 一个真实的段子,侧面体现MP3的衰落: MP3是一种音频压缩格式,也就是说,LAME团队看重的更多的是压缩,而非质量。这一点我想可能大部分人一直都有误区。 谈到压缩,就牵扯到以下几个因素:压缩比率(文件占用空间),编码时间,压缩质量,兼容性等等。所以如果但从质量角度来考虑的话,怎么说,总觉得有点片面了。 比特率是决定MP3大小的唯一因素(如果时长固定),所以如果题主想要更高码率的MP3,那就需要付出更大空间来储存——但这已经违背了MP3诞生的初衷——所以很多人会在回答这一类问题的时候直接说:想要更高的码率,那干脆用无损不就结了?320kbps这个比特率,没错,是MP3的上限。至于为什么,好像就是当初MP3开发的时候设定的值,其中具体的原因比较专业,我这个外行就不随便说了。 没有开发价值不代表没有利用价值。看到题主把这个提问分类到数字音乐,想必楼主的真正意图是想问,数字音乐网站到底是要坚持走MP3格式路线,还是像iTunes一样弄AAC,还是干脆上无损吧? 的确,时代已经渐渐改变了,现在已经不是几年前“高端耳机还是奢侈品、1T 2T的移动硬盘还是天方夜谭”的时代了。音乐爱好者们渐渐不再看重什么压缩比率,什么文件占用空间大小,音乐爱好者们更加注重音乐的质量了。MP3码率 192k是一个分水岭那个,192K以下的,音质损伤比较大,尤其是高频部分大于16Khz的部分都会被切除。简单地说192k以上的mp3,普通家用设备已经听不出与CD的音质区别了,金耳朵除外,Hifi设备除外。 当然,这个数据不是100%可靠的,网上老有人分享假192K以上的mp3,其实就是把低码率的音乐通过软件硬转到高码率,但音质并不会提升,还有windows media player压缩出来的mp3绝对是奇葩,不管压缩多高码率都会在16K左右出现一刀整齐的切割。MP3业者 前段时间,一个同事遇到了一个很纠结的客户。说纠结是因为客户要求她提供大小在100MB-200MB以上的歌曲文件。而同事对音频格式又不太了解,于是就开始了无休止的关于FLAC、WAV、音频大小的纠缠。最终,同事也没有跟客户解释清楚到底是怎么回事儿。 在之后,又发生了一些其他事情,让我感觉到音乐这个行业里面,身边有太多从业者对音乐的了解极为匮乏,甚至缺乏一些最基本的音乐相关知识,更甚者是这些知识根本不被重视,从业者连去了解的想法都没有,这让我很感到很悲哀。好像音乐只有一种商品属性,而而我们的从业者只是需要整理下货架,码好各种商品,拿着用户购买记录的大数据就给用户推荐商品了,而根本不需要关心用户为什么喜欢这个品牌,这些商品都有什么特性,用冷冰冰的数据为用户提供着各种服务。MP3常识 当前,我们所说的音频,都是数字音频。数字音频由采样频率、采样精度、声音通道数三个部分组成。 采样频率:既采样率,指记录声音时每秒的采样个数,它用赫兹(Hz)来表示。 采样精度:指记录声音的动态范围,它以位(Bit)为单位。 声音通道:既声道数(1-8个)。采样率 8khz:电话等使用,对于记录人声已经足够使用。 22.05khz:广播使用频率。 44.1kb:音频CD。 48khz:DVD、数字电视中使用。 96khz-192khz:DVD-Audio、蓝光高清等使用。 采样精度常用范围为8bit-32bit,而CD中一般都使用16bit。比特率 比特率这个东西应该说是另一个维度的东西,他是一种音频文件的压缩。 目前我们常用的音频格式,大部分都是基于音频CD(采样率44.1khz、采样精度16bit,2通道)的原始文件“WAV”文件而来的。原始收录的声音数据保存在一个数组里面,这个数组就是PCM格式,而WAV格式,则是微软公司开发的一种编码格式,它的作用是将PCM格式的数据通过编码播放出来。 由于WAV内的数据基本上完整的还原了PCM数据,而其他的无损、MP3、AAC等另外一些编码格式基本也都是基于WAV文件再压缩而成。所以,我们可以简单的认为,WAV是原始音频格式,其他音频格式是压缩格式。 说到压缩,就离不开存储和传输,压缩的目的就是为了更好的存储和传输,所以在说压缩之前,需要我们对计算机的基本单位有一些了解。 我们都知道,计算机是二进制数制,计算机存储的文件都是由0和1两个数字组成。所以,计算机的传输就以每一个数字为单位,每一个数字称为1“位(bit)”,比如说,一段音频,他的基础数据是“0,1,1,1,0,1,1,0”,而传输的时候,就是将这些数字一个个的传输过去。上面说的采样精度就是这个单位。 而计算机的存储单位是“字节(Byte)”,在计算机中,1个字节由8个位组成,也就是说8b(bit)=1B(Byte)。在计算机语言中,数据存储是以10进制表示,数据传输是以2进制表示,所以1KB=1024B=1024×8b。这也是造成我们看到的硬盘容量跟实际容量不符的部分原因。 返回来再说音频压缩,音频的比特率,实际上就是压缩比例。所以比特率实际上只定义文件的大小,但是由于在正常状态下,文件越大,其丢失的数据就越少,所以其音质也就相对更高一些。但比特率本身并不对文件的质量有直接影响,例如我们把128kb的文件作为源文件,即使转换成320kb的文件,其音质依然不会比128kb好。 那么比特率中的数字和字母到底是什么意思呢?首先看128k的全称“128kbps”,我们试着分解一下:128是数字,k是千位符,b是单位,s是秒,ps其实就是“/s”。这样来看,128kbps就是128kb/s。也就是每秒128kb。 请注意,这里的b是小写的b,也就是位。知道了这个,我们就能算出来128kb的文件大概占用多少的存储空间:128*1000=128000b/s÷8=16000B/s÷1024=15.625KB/s*60=937.5KB/分钟÷1024=0.9155MB/分钟。所以,128kb的音频文件,大概每分钟长度的大小都在0.92M或者916kb左右,也就是大家常说的128kb的mp3大小约1M的原因,大家可以在本地测试验证。 在说有损和无损之前,还有两个词跟大家解释一下,就是我们在压缩MP3的时候会看到CBR、VBR两种方式。而CBR就是Constants Bit Rate,恒定比特率;VBR就是Variable Bit Rate,动态比特率。理论上说,VBR的方式是根据音频源文件中声音的具体频率,自动修正一些比特率,以达到在同样比特率效果中,达到更小的文件。 我们再来说有损和无损。简单的来说,有损压缩就是通过删除一些已有数据中不太重要的数据来达到压缩目的;无损压缩就是通过优化排列方式来达到压缩目的。由于这些压缩方式涉及到更深的技术知识,我们就不再多说,大概可以这样去看:有损压缩就像我们在一篇文章中删除一些不重要的助词,达到目的,解压缩后,已删除的内容无法恢复;而无损则是通过排版方式达到的,解压缩之后,还能获得完整的WAV数据,就像是我们常用的winzip和WinRAR那样。 在无损格式中,目前比较常用的有APE(Monkey"s audio)、FLAC(Free Lossless Audio Codec)两种。前者拥有更小的比特率,后者则更容易传播,其区别就是,FLAC可以在传播中断后,已传播的数据就可以直接使用。比如我们下载一首APE格式的音乐,必须等全部数据下载完成后,才能播放,而FLAC则不同,你只下载了1/3,就能先播放这1/3的内容。 看到这里,我想你已经想到了,WAV文件也是一种编码格式,那他是不是也是有一定的比特率呢?没错,标准WAV文件的比特率是1411kb、而无损压缩则根据源文件的内容不同,大概是900-1000左右。大家可以自己去计算一下他们的标准大小。 MP3是最早一种在互联网上流行的音频编码标准,人们的行为习惯以及全网支持解码使它更具优势。 不同的编码方式在不同的码率优势不同,在192kb-224kb这个范围内,MP3格式的音质还是有绝对优势的。 PS:AAC其实与MP3来源于同一个标准MPEG,AAC在诞生之初就是作为MP3的继任者出现的。 另外,来源于网友测试的结果可作为参考,如下: OGG的优势范围:96K以上(OGG) AAC的优势范围:AAC LC应高于(包含)256K AAC HE 48K-96K Mp3的优势范围:192K(包含)以上 WMA的优势范围:128K(包含)以下网友总结 Wav vs 320k: 实际上我感觉wav和320k的mp3听起来差别并不是很大,从频谱上看也是如此,中低频部分基本是一样的,320k的高频信息也是齐全的,而320k的中高频部分看起来会比wav稍微“疏”一些,然而听感上我是真的听不出来,这个也没必要夸大,我还是实话实说……所以一般听歌的话,320k是够了,再往上限制你的就不是格式,而是设备了,你如果有类似ADI-2 Pro这种能在768kHz采样率下播放的声卡的话,会发现哪怕是同一个wav,在不同采样率下放甚至听起来都会有点不太一样。 Wav vs 192k: 从192k开始,已经逐渐开始丢失高频信息了,所以wav和192k,认真听还是能够听出区别的,最明显的就是高频没有那么“清晰透明”了。不过因为截止频率大概在19kHz,很多上了年纪的人(比如我),实际上已经听不到这么高的频段了,所以对整体音乐的影响不大。如果只是为了听音乐,不为混音的话,192k也是够的。 Wav vs 128k: 128k丢失的高频就更多了,这就不仅仅是高频“不清晰透明”的问题了,而是像我在开篇就说的那样,会带来失真的问题,最明显的就是高频带音高的乐器,比如木琴,钢片琴一类的乐器开始出现奇怪的泛音,人声开始出现毛刺感,各种打击乐器的能量减弱等等。不过这些其实还是属于音乐的细枝末节,音乐的整体还是非常完整的,所以还是能听的。如果场景是坐飞机坐高铁坐地铁听,那其实听128k和听wav差别也不大。 Wav vs 64k: 听了个寂寞,11kHz以上的信息都没了,哪怕是80岁的老头都能听出来区别吧……MP3编码 MP3 编解码器算法工作原理是利用人耳对所有声音频率的敏感度不同这一事实。通过去除听不见的频率,MP3 编解码器可以在不显着影响音质的情况下减小音频文件的大小。 MP3编解码算法分为四个主要步骤: Frame splitting:音频信号被分成小帧,每个小帧长 1152 个样本。 频率变换:使用改进的离散余弦变换 (MDCT) 将每个帧中的样本变换到频域。 量化:频率系数被量化,这意味着它们被四舍五入到一定的比特数。用于量化的位数决定了音频的质量。 熵编码:量化的频率系数使用熵编码进行编码,这是一种利用数据的统计特性来压缩数据的技术。 然后将压缩的音频数据存储在 MP3 文件中。MP3心理学 MP3到底丢失了什么?压缩前后的区别是什么? 因为声音本身是一种极其混乱,信息熵非常高的数据。所以这种方式不可能让它缩小到 CD 体积的 10 % 。那既然无损压缩这条路走不通了,干脆就丢掉一些信息好了。那 MP3 到底丢了哪些声音呢? 我们把同一段声音的 MP3 和它的无损版本并列在两条轨道上,把其中一轨反相,那如果它俩的声音是一样的,就会互相抵消,我们就应该得到一个静音效果。这也是降噪耳机的工作原理。 但只有这样我们还说不出 MP3 和无损的区别。如果一段音乐就是在 MP3 和无损之间不断切换的,你真的能区分的出来吗?我相信你是听不出来的。 这就是 MP3 算法的神奇之处,它的压缩并不是简单的丢掉声音数据,而是在丢掉数据的同时,你却察觉不到。 这事儿有戏的关键,是一个极其冷门的学科,叫心理声学( Psychoacoustics )。这是一门心理物理学的分支研究,最早源于人们对音乐和乐器的探索,后来成为了研究人的生理感官和客观声音世界之间关系的学科。听起来很复杂,其实很好理解,比如人耳的声音定位,听力范围这类研究,都属于心理声学的范畴。 在心理声学里有一个非常经典的研究,就是等响曲线。这个曲线告诉我们,人耳对于不同频率的声音,感知相差极大。人类的听觉范围在 20-20000Hz 之间,而在这个范围里的不同频率下,我们听到的响度是不一样的。 低频的声音需要更大的声压才能和中频较小的声压,所形成的声音大小听起来相等。 就比如贝斯就需要更大的音量,才能跟吉他声听起来差不多大。这也是为什么贝斯这类低音乐器的音箱要比其他音箱的体积大得多。 3000Hz 左右,人对这个频率的声音最敏感,只需要比较小的声压就能听到。比如我们听到的大部分的警报声,基频都在 1000-3000Hz ,这样人耳才能更容易捕捉这些声音,从而避免危险。 有意思的是,随着年龄增大,我们对于声音的接收范围也在变小,大多数成年人听不到频率在 16000Hz 以上的声音。 沿着这个方向,等响曲线的发现者又研究出了一个更加神奇的事情,让我们意识到我们的感官和客观到底差距有多么巨大。 这个东西,就是“ 掩蔽 ”( Masking )。 在听觉系统中,一种声音也会被另一种同时发出的声音所掩盖。比如在一个乐队里,往往是吉他声在 C 位,但如果突然有相似频率的乐器加入,比如小号。那吉他的声音就会被短暂的淹没。这一过程叫作同频掩蔽。 当我们听到一个噪音戛然而止的之后,实际上会有一个 100-200ms 的逐渐减弱的掩蔽效果。在噪音完全停止后的这段时间里,比他更小的声音会被掩蔽,我们是完全听不见的,就像我们的耳朵需要 200ms 的时间回复知觉一样。 不光如此,噪音还会掩蔽在它之前的声音,虽然只有 50ms,但对于感官来说已经是相当长的一段时间了,这意味着我们的大脑需要 50ms 的缓冲才能报告到意识里。 而这个前后过程,就叫作时间掩蔽。 MP3 压缩算法的核心,就是利用一个精心迭代了许多年的人体听觉心理学模型,把音乐里的每一个瞬间对应在 MP3 文件格式里的每一帧( FRAME ),检查这个帧内,上述两种掩蔽作用所发生的频率和时间段,把那些被掩盖的,我们听不到的音频信息统统丢掉。 这个过程并不单纯是精确地,机械式地判断,它的底色其实是感官上的把控。 在 MP3 算法测试初期,测试人员需要在海量的歌曲中找出 MP3 压缩算法的问题。它们要在各种歌曲的 MP3 和无损版本之间对比,而且每听一首歌他们都要评级,一共有四个等级,分别是:听不出区别、有一点区别、有点难听和非常难听。特别是最后两个选项,可以说是非常主观的判断了。 这意味着 MP3 算法的发明和改进,实际上把人的主观评判作为考量的目标之一。我们不能说这种算法是完全主观的,它也不是绝对客观的,所以它的效果也不可能在所有歌曲中都是平均的。 说到这,就不得不提 MP3 发明过程中的一个小故事。在 MP3 压缩算法测试的最后阶段曾遇到过一个大难题,当时 Brandenburg 和他的同事们觉得自己的算法已经非常牛逼了,几乎在所有的双盲测试中都很难听出区别。 有天他无意中看到杂志上说大家喜欢用 Suzanne Vega 的歌曲 Tom"s Diner 来测试自己的音箱,而他正好在弗劳恩霍夫实验室( Fraunhofer )看到了这张 CD ,于是他就把这首歌上传到了电脑上。 这首歌非常简单,是一个纯人声,没有伴奏的歌曲。但当他通过 MP3 的压缩算法处理这首歌之后,却得到这样一个效果。 在 MP3 较低的比特率下,Vega 的声音变得沙哑,不自然。于是在之后的一年时间里,研发团队又对 MP3 算法做了几千次的微小调整, Brandenburg 说自己至少听了三千遍这首歌,可能比地球上任何人听得次数都多。 最后他们成功压缩了这首 Tom"s Diner ,也通过这首歌,真正完善了 MP3 的压缩算法。 许多年之后,Brandenburg 真的遇到了 Vega ,而且还现场听她唱了那首Tom"s Diner。尽管已经听了无数遍,但他说,这首歌依然很好听。 所以尽管他们团队的技术数据量更小,音质也更强,但最后还是输给了 MUSICAM 。因为MUSICAM 的算法需要的处理能力更少。在当时处理器普遍不太行的时代,确实更有优势。 因此在当年,MP3 是一个妥妥的失败品。连它的发明者也已经开始着手研究新的音频编码。MP3 就这样被扔进了历史的垃圾堆里。 直到 90 年代中期,两种革命性技术的诞生,让 MP3 这颗弃子重新活了过来,那就是万维网和 Windows 95。MP3消失 MP3 的诞生比我想象的要复杂的多,它是一个耗时多年,经历了无数迭代才得到的科研成果。这个成果可以说是重塑了人类音乐产业。也正是由 MP3 开始,音乐,成了一种人人可以触及的大众消费品。 从黑胶、磁带,再到 CD、MP3,每一次技术革新都在改变人们的音乐体验,也在改变大家消费音乐的方式。而 MP3 在这段历史中格外的与众不同。推崇它的人认为,MP3 无比伟大,它让大家都能便捷地享受音乐;而反对它的人,视它如猛兽,因为它吞噬了唱片公司赖以生存的版权,以及唱片业曾经的黄金时代。 今天,数字音乐留了下来,但 MP3 已经走到了被时代淘汰的边缘。我们再也不需要把音乐下载到播放器里,再用播放器来听音乐,大家都是用手机在线听歌,5G 通讯和几百G内存,让音频压缩变得更没必要,音乐平台也渐渐转向了FLAC等无损格式。