音频编解码介绍(最全v1.0)_gsm音频格式 开源许可-程序员宅基地

技术标签: 语音信号处理  音频编解码  音视频编解码  语音识别  音频编码解码  

音频编解码介绍(最全v1.0)

目录:

1. PCMU(G.711U)

2. PCMA(G.711A)

3. ADPCM

4. LPC(Linear Predictive Coding)

5. CELP(Code Excited Linear Prediction)

6. G.711

7. G.721

8. G.722

9. G.723

10.G.723.1

11.G.728

12.G.729

13.G.729A

14.GIPS

15.SILK

16.NICAM(Near Instantaneous Companded Audio Multiplex)

17.MPEG-1 audio layer 1

18.MUSICAM(MPEG-1 audio layer 2)

19.MP3(MPEG-1 audio layer 3)

20.MPEG-2 audio layer

21.AAC(Advanced Audio Coding)

22.Dolby AC-3

23.ASPEC(Audio Spectral Perceptual Entropy Coding)

24.PAC(Perceptual Audio Coder)

25.HR

26.FR

27.EFR

28.GSM-AMR(Adaptive Multi-Rate)

29.EVRC(Enhanced Variable Rate Coder)

30.QCELP(QualComm Code Excited Linear Predictive)

31.Apt-X

32.SPEEX

33.AMR(Adaptive Multi-Rate

34.OPUS

35.OGG

36.ILBC

37.ISAC


本内容部分原创,因作者才疏学浅,偶有纰漏,望不吝指出。同时感谢各路大神对本内容的支持和帮助。本内容由灵声讯音频-语音算法实验室整理创作,转载和使用请与“灵声讯”联系,联系方式:音频/识别/合成算法QQ群(696554058)


1. PCMU(G.711U)
类型:Audio
制定者:ITU-T
支持带宽:64Kbps(90.4)
特性:PCMU和PCMA都能提供较好的语音质量,但是它们占用的带宽较高,需要64kbps。
优点:语音质量优
缺点:占用的带宽较高
应用领域:voip (Voice over Internet Protocol)
版税方式:Free
 注:PCMU and PCMA都能够达到CD音质,但是它们消耗的带宽也最多(64kbps)。如果网络带宽比较低,可以选用低比特速率的编码方法,如G.723或 G.729,这两种编码的方法也能达到传统长途电话的音质,但是需要很少的带宽(G723需要5.3/6.3kbps,G729需要8kbps)。如果带 宽足够并且需要更好的语音质量,就使用PCMU 和 PCMA,甚至可以使用宽带的编码方法G722(64kbps),这可以提供有高保真度的音质。

2. PCMA(G.711A)
类型:Audio
制定者:ITU-T
支持带宽:64Kbps(90.4)
特性:PCMU和PCMA都能提供较好的语音质量,但是它们占用的带宽较高,需要64kbps。
优点:语音质量优
缺点:占用的带宽较高
应用领域:voip
版税方式:Free
 注:PCMU and PCMA都能够达到CD音质,但是它们消耗的带宽也最多(64kbps)。如果网络带宽比较低,可以选用低比特速率的编码方法,如G.723或 G.729,这两种编码的方法也能达到传统长途电话的音质,但是需要很少的带宽(G723需要5.3/6.3kbps,G729需要8kbps)。如果带 宽足够并且需要更好的语音质量,就使用PCMU 和 PCMA,甚至可以使用宽带的编码方法G722(64kbps),这可以提供有高保真度的音质。


3. ADPCM(自适应差分PCM)
类型:Audio
制定者:ITU-T
支持带宽:32Kbps
特性:ADPCM(adaptive difference pulse code modulation)综合了APCM的自适应特性和DPCM系统的差分特性,是一种性能比较好的波形编码。它的核心想法是:
①利用自适应的思想改变量化阶的大小,即使用小的量化阶(step-size)去编码小的差值,使用大的量化阶去编码大的差值;
②使用过去的样本值估算下一个输入样本的预测值,使实际样本值和预测值之间的差值总是最小。
优点:算法复杂度低,压缩比小(CD音质>400kbps),编解码延时最短(相对其它技术)
缺点:声音质量一般
应用领域:voip
版税方式:Free
 注:ADPCM (ADPCM Adaptive Differential Pulse Code Modulation), 是一种针对 16bit (或者更高?) 声音波形数据的一种有损压缩算法, 它将声音流中每次采样的 16bit 数据以 4bit 存储, 所以压缩比 1:4. 而压缩/解压缩算法非常的简单, 所以是一种低空间消耗,高质量声音获得的好途径。


4. LPC(Linear Predictive Coding,线性预测编码)
类型:Audio
制定者:
支持带宽:2Kbps-4.8Kbps
特性:压缩比大,计算量大,音质不高,廉价
优点:压缩比大,廉价
缺点:计算量大,语音质量不是很好,自然度较低
应用领域:voip
版税方式:Free
 注:参数编码又称为声源编码,是将信源信号在频率域或其它正交变换域提取特征参数,并将其变换成数字代码进行传输。译码为其反过程,将收到的数字序列经变 换恢复特征参量,再根据特征参量重建语音信号。具体说,参数编码是通过对语音信号特征参数的提取和编码,力图使重建语音信号具有尽可能高的准确性,但重建 信号的波形同原语音信号的波形可能会有相当大的差别。如:线性预测编码(LPC)及其它各种改进型都属于参数编码。该编码比特率可压缩到2Kbit/s- 4.8Kbit/s,甚至更低,但语音质量只能达到中等,特别是自然度较低。


5. CELP(Code Excited Linear Prediction,码激励线性预测编码)
类型:Audio
制定者:欧洲通信标准协会(ETSI)
支持带宽:4~16Kbps的速率
特性:改善语音的质量:
① 对误差信号进行感觉加权,利用人类听觉的掩蔽特性来提高语音的主观质量;
② 用分数延迟改进基音预测,使浊音的表达更为准确,尤其改善了女性语音的质量;
③ 使用修正的MSPE准则来寻找 “最佳”的延迟,使得基音周期延迟的外形更为平滑;
④ 根据长时预测的效率,调整随机激励矢量的大小,提高语音的主观质量;

⑤ 使用基于信道错误率估计的自适应平滑器,在信道误码率较高的情况下也能合成自然度较高的语音。
结论:
① CELP算法在低速率编码环境下可以得到令人满意的压缩效果;
② 使用快速算法,可以有效地降低CELP算法的复杂度,使它完全可以实时地实现;
③ CELP可以成功地对各种不同类型的语音信号进行编码,这种适应性对于真实环境,尤其是背景噪声存在时更为重要。
优点:用很低的带宽提供了较清晰的语音
缺点:
应用领域:voip
版税方式:Free
 注:1999年欧洲通信标准协会(ETSI)推出了基于码激励线性预测编码(CELP)的第三代移动通信语音编码标准自适应多速率语音编码器(AMR), 其中最低速率为4.75kb/s,达到通信质量。CELP 码激励线性预测编码是Code Excited Linear Prediction的缩写。CELP是近10年来最成功的语音编码算法。
CELP语音编码算法用线性预测提取声道参数,用一个包含许多典型的激励矢量的码本作为激励参数,每次编码时都在这个码本中搜索一个最佳的激励矢量,这个激励矢量的编码值就是这个序列的码本中的序号。
CELP已经被许多语音编码标准所采用,美国联邦标准FS1016就是采用CELP的编码方法,主要用于高质量的窄带语音保密通信。CELP (Code-Excited Linear Prediction) 这是一个简化的 LPC 算法,以其低比特率著称 (4800-9600Kbps),具有很清晰的语音品质和很高的背景噪音免疫性。CELP是一种在中低速率上广泛使用的语音压缩编码方案。


6. G.711
类型:Audio
制定者:ITU-T
支持带宽:64Kbps
特性:算法复杂度小,音质一般
优点:算法复杂度低,压缩比小(CD音质>400kbps),编解码延时最短(相对其它技术)
缺点:占用的带宽较高
应用领域:voip
版税方式:Free
备注:70年代CCITT公布的G.711 64kb/s脉冲编码调制PCM。


7. G.721
类型:Audio
制定者:ITU-T
支持带宽:32Kbps
特性:相对于PCMA和PCMU,其压缩比较高,可以提供2:1的压缩比。
优点:压缩比大
缺点:声音质量一般
应用领域:voip
版税方式:Free
备注:子带ADPCM(SB-ADPCM)技术。G.721标准是一个代码转换系统。它使用ADPCM转换技术,实现64 kb/s A律或μ律PCM速率和32 kb/s速率之间的相互转换。


8. G.722
类型:Audio
制定者:ITU-T
支持带宽:64Kbps
特性:G722能提供高保真的语音质量
优点:音质好
缺点:带宽要求高
应用领域:voip
版税方式:Free
备注:子带ADPCM(SB-ADPCM)技术


9. G.723(低码率语音编码算法)
类型:Audio
制定者:ITU-T
支持带宽:5.3Kbps/6.3Kbps
特性:语音质量接近良,带宽要求低,高效实现,便于多路扩展,可利用C5402片内16kRAM实现53coder。达到ITU-TG723要求的语音质量,性能稳定。可用于IP电话语音信源编码或高效语音压缩存储。
优点:码率低,带宽要求较小。并达到ITU-TG723要求的语音质量,性能稳定。
缺点:声音质量一般
应用领域:voip
版税方式:Free
 注:G.723语音编码器是一种用于多媒体通信,编码速率为5.3kbits/s和6.3kbit/s的双码率编码方案。G.723标准是国际电信联盟 (ITU)制定的多媒体通信标准中的一个组成部分,可以应用于IP电话等系统中。其中,5.3kbits/s码率编码器采用多脉冲最大似然量化技术 (MP-MLQ),6.3kbits/s码率编码器采用代数码激励线性预测技术。


10. G.723.1(双速率语音编码算法)
类型:Audio
制定者:ITU-T
支持带宽:5.3Kbps(22.9)
特 性:能够对音乐和其他音频信号进行压缩和解压缩,但它对语音信号来说是最优的。G.723.1采用了执行不连续传输的静音压缩,这就意味着在静音期间的比 特流中加入了人为的噪声。除了预留带宽之外,这种技术使发信机的调制解调器保持连续工作,并且避免了载波信号的时通时断。
优点:码率低,带宽要求较小。并达到ITU-TG723要求的语音质量,性能稳定,避免了载波信号的时通时断。
缺点:语音质量一般
应用领域:voip
版税方式:Free
备注:G.723.1算法是 ITU-T建议的应用于低速率多媒体服务中语音或其它音频信号的压缩算法,其目标应用系统包括H.323、H.324等多媒体通信系统 。目前该算法已成为IP电话系统中的必选算法之一。


11. G.728
类型:Audio
制定者:ITU-T
支持带宽:16Kbps/8Kbps
特性:用于IP电话、卫星通信、语音存储等多个领域。G.728是一种低时延编码器,但它比其它的编码器都复杂,这是因为在编码器中必须重复做50阶LPC分析。G.728还采用了自适应后置滤波器来提高其性能。
优点:后向自适应,采用自适应后置滤波器来提高其性能
缺点:比其它的编码器都复杂
应用领域:voip
版税方式:Free
备注:G.728 16kb/s短延时码本激励线性预测编码(LD-CELP)。1996年ITU公布了G.728 8kb/s的CS-ACELP算法,可以用于IP电话、卫星通信、语音存储等多个领域。16 kbps G.728低时延码激励线性预测。
G.728是低比特线性预测合成分析编码器(G.729和G.723.1)和后向ADPCM编码器的混合体。G.728是LD-CELP编码器,它一次只 处理5个样点。对于低速率(56~128 kbps)的综合业务数字网(ISDN)可视电话,G.728是一种建议采用的语音编码器。由于其后向自适应特性,因此G.728是一种低时延编码器,但 它比其它的编码器都复杂,这是因为在编码器中必须重复做50阶LPC分析。G.728还采用了自适应后置滤波器来提高其性能。


12. G.729
类型:Audio
制定者:ITU-T
支持带宽:8Kbps
特性:在良好的信道条件下要达到长话质量,在有随机比特误码、发生帧丢失和多次转接等情况下要有很好的稳健性等。这种语音压缩算法可以应用在很广泛的领域中,包括IP电话、无线通信、数字卫星系统和数字专用线路。
G.729算法采用“共轭结构代数码本激励线性预测编码方案”(CS-ACELP)算法。这种算法综合了波形编码和参数编码的优点,以自适应预测编码技术为基础,采用了矢量量化、合成分析和感觉加权等技术。
G.729编码器是为低时延应用设计的,它的帧长只有10ms,处理时延也是10ms,再加上5ms的前视,这就使得G.729产生的点到点的时延为25ms,比特率为8 kbps。
优点:语音质量良,应用领域很广泛,采用了矢量量化、合成分析和感觉加权,提供了对帧丢失和分组丢失的隐藏处理机制
缺点:在处理随机比特错误方面性能不好。
应用领域:voip
版税方式:Free
 注:国际电信联盟(ITU-T)于1995年11月正式通过了G.729。 ITU-T建议G.729也被称作“共轭结构代数码本激励线性预测编码方案”(CS-ACELP),它是当前较新的一种语音压缩标准。G.729是由美 国、法国、日本和加拿大的几家著名国际电信实体联合开发的。


13. G.729A
类型:Audio
制定者:ITU-T
支持带宽:8Kbps(34.4)
特性:复杂性较G.729低,性能较G.729差。
优点:语音质量良,降低了计算的复杂度以便于实时实现,提供了对帧丢失和分组丢失的隐藏处理机制
缺点:性能较G.729差
应用领域:voip
版税方式:Free
备注:96年ITU-T又制定了G.729的简化方案G.729A,主要降低了计算的复杂度以便于实时实现,因此目前使用的都是G.729A。


  • 14. GIPS
    类型:Audio
    制定者:瑞典Global IP Sound公司
    支持带宽:
    特性:GIPS技术可根据带宽状况自动调节编码码率,提供低码率高质量的音频。GIPS的核心技术(网络自适应算法,丢包补偿算法和回声消除算法)可很好地解决语音延迟与回声问题,带来完美音质,提供比电话还清晰的语音通话效果。
    优点:很好地解决语音延迟与回声问题,带来完美音质,提供比电话还清晰的语音通话效果
    缺点: 不是Free
    应用领域:voip
    版税方式:每年支付一笔使用权费用
    注:GIPS音频技术是由来自瑞典的全球顶尖的语音处理高科技公司--"GLOBAL IP SOUND"提供的专用于互联网的语音压缩引擎系统。GIPS技术可根据带宽状况自动调节编码码率,提供低码率高质量的音频。GIPS的核心技术(网络自 适应算法,丢包补偿算法和回声消除算法)可很好地解决语音延迟与回声问题,带来完美音质,提供比电话还清晰的语音通话效果。

15.SILK

  • 类型:Audio
  • 制定者:skype(目前被Microsoft收购)
  • 支持带宽:6-40Kbps
  • 应用领域:voip
  • 开发历史:SILK最早在Windows版Skype的4.0版本中被披露,它成为了Skype到Skype通话的默认解码器,实时带宽6-40Kbps即可工作,即使丢包水平达到10%依然可以稳定维持24KHz采样的通话音质.Skype投入了数百万美元,耗时三年多开发了Silk,他们表示Silk可以使VoIP通话听起来好像你和对话的人在同一间房子里一样。大部分电话只能传输3.4kHz(码率)的信号,而Silk可以让Skype传输高达12kHz的信号。开放编码器可以被看作是Skype放弃了一项竞争优势,但是它是Skype将其服务推广到更多设备这一长期战略中的一环。该公司已经有4.05亿套软件的装机量,其中绝大部分用户是台式计算机用户。免费提供其编码器可以让设备制造商将Skype整合到像智能电话、手机或移动互联设备中去。Skype已经开始着手将其服务推广到其它平台上,并发布了基于Android和支持Java手机的通话服务。该公司还和诺基亚合作将其VoIP软件预装到智能手机上,例如N97。
  • Silk下载地址如下
  • http://developer.skype.com/silk/SILK_SDK_SRC_v1.0.7.zip
  • Silk标准下载地址如下
  • http://tools.ietf.org/html/draft-vos-silk-01
  • Silk的一些文档
  • http://developer.skype.com/silk


16. NICAM(Near Instantaneous Companded Audio Multiplex 准瞬时压扩音频复用)
类型:Audio
制定者:英国BBC广播公司
支持带宽:728Kbps
特性:应用范围及其广泛,可用它进行立体声或双语广播
优点:应用范围及其广泛,信噪比高,动态范围宽、音质同CD相媲美,故名丽音,因此NICAM又称为丽音
缺点:不是Free,频宽要求高
应用领域:voip
版税方式:一次性付费
备注:NICAM也称丽音,它是英文Near-Instantaneously Companded Audio Multiplex的缩写,其含义为准瞬时压扩音频复用,是由英国BBC广播公司开发研究成功的。
通俗地说NICAM技术实际上就是双声道数字声技术,其应用范围及其广泛,最典型的应用便是电视广播附加双声道数字声技术,利用它进行立体声或双语广播, 以充分利用电视频道的频谱资源。这是在常规电视广播的基础上无需增加许多投资就可以实现的。在进行立体声广播时,它提高了音频的信号质量,使其接近CD的 质量。而且还可以利用NICAM技术进行高速数据广播及其他数据传输的增殖服务,这在当今的信息化社会中似乎就显得尤为重要了!


17. MPEG-1 audio layer 1
类型:Audio
制定者:MPEG
支持带宽:384kbps(压缩4倍)
特性:编码简单,用于数字盒式录音磁带,2声道,VCD中使用的音频压缩方案就是MPEG-1层Ⅰ。
优点:压缩方式相对时域压缩技术而言要复杂得多,同时编码效率、声音质量也大幅提高,编码延时相应增加。可以达到“完全透明”的声音质量(EBU音质标准)
缺点:频宽要求较高
应用领域:voip
版税方式:Free
备注:MPEG-1声音压缩编码是国际上第一个高保真声音数据压缩的国际标准,它分为三个层次:
--层1(Layer 1):编码简单,用于数字盒式录音磁带
--层2(Layer 2):算法复杂度中等,用于数字音频广播(DAB)和VCD等
--层3(Layer 3):编码复杂,用于互联网上的高质量声音的传输,如MP3音乐压缩10倍


18. MUSICAM(MPEG-1 audio layer 2)
类型:Audio
制定者:MPEG
支持带宽:256~192kbps(压缩6~8倍)
特性:算法复杂度中等,用于数字音频广播(DAB)和VCD等,2声道,而MUSICAM由于其适当的复杂程度和优秀的声音质量,在数字演播室、DAB、DVB等数字节目的制作、交换、存储、传送中得到广泛应用。
优点:压缩方式相对时域压缩技术而言要复杂得多,同时编码效率、声音质量也大幅提高,编码延时相应增加。可以达到“完全透明”的声音质量(EBU音质标准)
缺点:
应用领域:voip
版税方式:Free
备注:同MPEG-1 audio layer 1


19. MP3(MPEG-1 audio layer 3)
类型:Audio
制定者:MPEG
支持带宽:128~112kbps(压缩10~12倍)
 性:编码复杂,用于互联网上的高质量声音的传输,如MP3音乐压缩10倍,2声道。MP3是在综合MUSICAM和ASPEC的优点的基础上提出的混合压 缩技术,在当时的技术条件下,MP3的复杂度显得相对较高,编码不利于实时,但由于MP3在低码率条件下高水准的声音质量,使得它成为软解压及网络广播的宠儿。
优点:压缩比高,适合用于互联网上的传播
缺点:MP3在128KBitrate及以下时,会出现明显的高频丢失
应用领域:voip
版税方式:Free
备注:同MPEG-1 audio layer 1

20. MPEG-2 audio layer
类型:Audio
制定者:MPEG
支持带宽:与MPEG-1层1,层2,层3相同
特性:MPEG-2的声音压缩编码采用与MPEG-1声音相同的编译码器,层1, 层2和层3的结构也相同,但它能支持5.1声道和7.1声道的环绕立体声。
优点:支持5.1声道和7.1声道的环绕立体声
缺点:
应用领域:voip
版税方式:按个收取
备注:MPEG-2的声音压缩编码采用与MPEG-1声音相同的编译码器,层1, 层2和层3的结构也相同,但它能支持5.1声道和7.1声道的环绕立体声。


21. AAC(Advanced Audio Coding,先进音频编码)
类型:Audio
制定者:MPEG
支持带宽:96-128 kbps
特性:AAC可以支持1到48路之间任意数目的音频声道组合、包括15路低频效果声道、配音/多语音声道,以及15路数据。它可同时传送16套节目,每套节目的音频及数据结构可任意规定。
AAC主要可能的应用范围集中在因特网网络传播、数字音频广播,包括卫星直播和数字AM、以及数字电视及影院系统等方面。AAC使用了一种非常灵活的熵编 码核心去传输编码频谱数据。具有48 个主要音频通道,16 个低频增强通道,16 个集成数据流, 16 个配音,16 种编排。
优点:支持多种音频声道组合,提供优质的音质
缺点:
应用领域:voip
版税方式:一次性收费
备注:AAC于1997年形成国际标准ISO 13818-7。先进音频编码(Advanced Audio Coding--AAC)开发成功,成为继MPEG-2音频标准(ISO/IEC13818-3)之后的新一代音频压缩标准。
在MPEG-2制订的早期,本来是想将其音频编码部分保持与MPEG-1兼容的。但后来为了适应演播电视的要求而将其定义成为一个可以获得更高质量的多声 道音频标准。理所当然地,这个标准是不兼容MPEG-1的,因此被称为MPEG-2 AAC。换句话说,从表面上看,要制作和播放AAC,都需要使用与MP3完全不同的工具。


22. Dolby AC-3
类型:Audio
制定者:美国杜比公司
支持带宽:64kbps
特性:提供的环绕立体声系统由5个全频带声道加一个超低音声道组成,6个声道的信息在制作和还原过程中全部数字化,信息损失很少,细节丰富,具有真正的立体声效果,在数字电视、DVD和家庭影院中广泛使用。
优点:环绕立体声,信息损失很少,细节丰富,具有真正的立体声效果
缺点:
应用领域:voip
版税方式:按个收取
 注:杜比数字AC-3(Dolby Digital AC-3):美国杜比公司开发的多声道全频带声音编码系统,它提供的环绕立体声系统由5个全频带声道加一个超低音声道组成,6个声道的信息在制作和还原过 程中全部数字化,信息损失很少,细节丰富,具有真正的立体声效果,在数字电视、DVD和家庭影院中广泛使用。


23. ASPEC(Audio Spectral Perceptual Entropy Coding)
类型:Audio
制定者:AT&T
支持带宽:64kps
特性:音频质量获得显著改善,不过计算复杂度也大大提高,而且在回响、低码率时声音质量严重下降。
优点:音频质量获得显著改善
缺点:计算复杂度的提高。块边界影响、预计算复杂度的提高。回响、低码率时声音质量严重下降
应用领域:voip
版税方式:按个收取
备注:变换压缩技术


24. PAC(Perceptual Audio Coder)
类型:Audio
制定者:AT&T
支持带宽:64kps
特性:音频质量获得显著改善,不过在回响、低码率时声音质量严重下降。
优点:音频质量获得显著改善
缺点:块边界影响、预回响、低码率时声音质量严重下降
应用领域:voip
版税方式:按个收取
备注:变换压缩技术


25. HR
类型:Audio
制定者: 飞利浦
支持带宽:8Kbps
特性:以增加GSM网络容量为目的,但是会损害语音质量;由于现在网络频率紧缺,一些大的运营商已经在大城市密集地带开通此方式以增加容量。
优点:系统容量大
缺点:语音质量差
应用领域:GSM
版税方式:按个收费
备注:HF半速率,是一种GSM语音编码方式。


26. FR
类型:Audio
制定者:飞利浦
支持带宽:13Kbps
特性:是一般的GSM手机的通信编码方式,可以获得达到4.1左右Qos的语音通信质量(国际电联规定语音通信质量Qos满分为5)
优点:语音质量得到了提高
缺点:系统容量降低
应用领域:GSM
版税方式:按个收费
备注:FR全速率,是一种GSM语音编码方式。


27. EFR
类型:Audio
制定者:飞利浦
支持带宽:13Kbps
特性:用于GSM手机基于全速率13Kbps的语音编码和发送,可以获得更好更清晰的语音质量(接近Qos4.7),需要网络服务商开通此项网络功能,手机才能配合实现。
优点:音质好
缺点:需要网络服务商开通此项网络功能,且系统容量降低
应用领域:GSM
版税方式:按个收费
备注:EFR增强型全速率,一种GSM网络语音的编码方式。


28. GSM-AMR(Adaptive Multi-Rate)
类型:Audio
制定者:飞利浦
支持带宽:8Kbps(4.75 Kbps~12.2 Kbps)
特性: 可以对语音进行替换和消音,平滑噪音,支持间断式传输,对语音进行动态侦查。能在各种网络条件下提供优质的语音效果。
优点:音质出色
缺点:
应用领域:GSM
版税方式:按个收费
 注:GSM-ASM是一种广泛使用在GPRS和W-CDMA网络上的音频标准。在规范ETSI GSM06.90中对GSM-AMR进行了定义。AMR语音编码是GSM 2+和WCDMA的默认编码标准,是第三代无线通讯系统的语音编码标准。GSM-AMR标准基于ACELP(代数激励线性预测)编码。它能在广泛的传输条 件下提供高品质的语音效果。


29. EVRC(Enhanced Variable Rate Coder,增强型可变速率编码器)
类型:Audio
制定者:美国Qualcomm通信公司(即高通)
支持带宽:8Kbps或13Kbps
特性:支持三种码率(9.6 Kbps, 4.8 Kbps 和 1.2 Kbps),噪声抑制,邮件过滤。能在各种网络条件下提供优质的语音效果。
优点:音质出色
缺点:
应用领域:CDMA
版税方式:按个收费
 注:EVRC编码广泛使用于CDMA网络。EVRC标准遵循规范TIA IS-127的内容。EVRC编码基于RCELP(松弛码激励线性预测)标准。该编码可以以Rate 1(171bits/packet),Rate 1/2(80bits/packet)或是Rate 1/8(16bits/packet)的容量进行操作。在要求下,它也能产生空包(0bits/packet)。


30. QCELP(QualComm Code Excited Linear Predictive,受激线性预测编码)
类型:Audio
制定者:美国Qualcomm通信公司(即高通)
支持带宽:8k的语音编码算法(可工作于4/4.8/8/9.6Kbps等固定速率上,而且可变速率地工作于800Kbps~9600Kbps之间)
 性:使用适当的门限值来决定所需速率。QCELP是一种8k的语音编码算法(可以在8k的速率下提供接近13k的话音压缩质量)。这是一种可变速率话音编 码,根据人的说话特性(大家应该能够体会我们日常的沟通和交流时并不是一直保持某种恒定的方式讲话,有间断、有不同的声音频率等都是人的自然表达)而采取 的一种优化技术。
优点:话音清晰、背景噪声小,系统容量大
缺点: 不是Free
应用领域:CDMA
版税方式:每年支付一笔使用权费用
 注:QCELP,即QualComm Code Excited Linear Predictive(QualComm受激线性预测编码)。美国Qualcomm通信公司的专利语音编码算法,是北美第二代数字移动电话(CDMA)的 语音编码标准(IS95)。这种算法不仅可工作于4/4.8/8/9.6kbit/s等固定速率上,而且可变速率地工作于 800bit/s~9600bit/s之间。QCELP算法被认为是到目前为止效率效率最高的一种算法,它的主要特点之一,是使用适当的门限值来决定所需速率。I‘1限值懈景噪声电平变化而变化,这样就抑制了背景噪声,使得即使在喧闹的环境中,也能得到良好的话音质量, CDMA8Kbit/s的话音近似GSM 13Mbit/s的话音。CDMA采用QCELP编码等一系列技术,具有话音清晰、背景噪声小等优势,其性能明显 优于其他无线移动通信系统,语音质量可以与有线电话媲美。 无线辐射低。

31. Apt-X
类型:Audio
制定者:Audio Processing Technology 公司
支持带宽:10Hz to 22.5 kHz,56kbit/s to 576 kbit/s(16 bit 7.5 kHz mono to 24-bit, 22.5kHz stereo)
特性:主要用于专业音频领域,提供高品质的音频。其特点是:
①采用4:1:4的压缩与放大方案;
②硬件低复杂度;
③极低的编码延迟;
④由单芯片实现;
⑤单声道或立体声编解码;
⑥只需单设备即可实现22.5kHz的双通道立体声;
⑦高达48kHz的采样频率;
⑧容错性好;
⑨完整的AUTOSYNC编解码同步方案;
⑩低功率消耗
优点:高品质的音频,硬件复杂度低,设备要求低
缺点:不是Free
应用领域:voip
版税方式:一次性付费
备注:子带ADPCM(SB-ADPCM)技术

32. SPEEX

类型:Audio
制定者:https://www.xiph.org/

支持采样率:8KHz, 16KHz, 32KHz(对应窄带,宽带,超宽带)

应用领域:voip

编码:Speex编解码器是基于CELP(Code Excited Linear Prediction)激励线性预测编码的,而且专门为2至44kbps的语音压缩而设计的。是有损压缩,通常用0~10范围内的质量参数来控制Speex编码。正常情况下,复杂度为1时噪声级会比复杂度为10时高1~2 dB(分贝),而复杂度为10的CPU需求是复杂度为1的5倍。实践证明,最好将复杂度设置在2~4,设置较高则对非语音编码如双音多频(DTMF)音质较为有用。

Speex的主要特性总结如下:

  • a. 只支持单声道,不支持多声道。
  • b. 只能对音频数据进行处理,不支持音频数据的输入输出,也就是不支持录音和播放。
  • c. 支持强化立体声编码(Intensity Stereo Encoding)。
  • d. 支持数据包丢失隐藏(Packet Loss Concealment、PLC)。
  • e. 支持固定比特率(Constant Bit Rate、CBR)。
  • f. 支持可变比特率(Variable Bit Rate、VBR)。可大范围改变比特率(bit-rate)(从2.15kbps到44kbps )
  • g. 支持平均比特率(Average Bit Rate、ABR)。
  • h. 支持非连续传输(Discontinuous transmission、DTX)。
  • i. 支持定点执行(Fixed-point implementation)。
  • j. 支持浮点执行(Floating-point implementation)。
  • k. 支持声学回音消除(Acoustic Echo Canceller、AEC)。
  • l. 支持残余回音消除(Residual Echo Canceller、REC)。
  • m. 支持噪音抑制(Noise Suppression、NS)。
  • n. 支持混响音消除(Dereverb)。
  • o. 支持自动增益控制(Automatic Gain Control、AGC)。
  • p. 支持语音活动检测(Voice Activity Detection、VAD)。
  • q. 支持多速率(multi-rate)。
  • r. 支持嵌入式(Embedded)。
  • s. 支持重采样(Resample)。
  • t. 开源的自由软件,免专利,免版权。
  • u. 支持可变复杂度(0~10)
  • v. 支持定点执行

Speex库官方网站:http://www.speex.org/

Speex库API官方英文详解:http://www.speex.org/docs/api/speex-api-reference/index.html

NSpeex库(用于.Net和Silverlight的Speex库)官方网站:http://nspeex.codeplex.com/

Speex库目前最新的版本是Speex 1.2.0和SpeexDSP 1.2.0。

 

33. AMR(Adaptive Multi-Rate,自适应多速率)

  • 类型:Audio
    制定者: AMR由欧洲通信标准化委员会提出,是在移动通信系统中使用最广泛的语音标准。MMS也采用这一格式作为声音标准。支持机型:阿尔卡特OT756、西门子CX65等。 和ADPCM一样,AMR并不是专门的手机铃声格式,AMR是被各大手机厂商广泛认可的一种保存手机录音的格式。Nokia为WB-AMR格式(AWB)的铃声所作的商业命名,已被3GPP(The 3rd Generation Partnership Project,第三代合作伙伴计划)选定为GSM和3G WCDMA应用的宽带语言编解标准。
  • 作用:AMR音频主要用于移动设备的音频压缩,压缩比非常高,但是音质比较差,主要用于语音类的音频压缩,不适合对音质要求较高的音乐类音频的压缩。
  • 应用领域:voip
  • 种类:AMR又分为两种,一种是AMR-NB(AMR-NarrowBind),语音带宽范围:300-3700Hz,8KHz采样频率;另外一种是AMR-WB(AMR WideBand),语音带宽范围50-7000Hz,16KHz采样频率。但考虑语音的短时相关性,每帧长度均为20ms。
  • 实现原理:
  • (1)AMR-NB
  • AMR的采样频率为8KHz,每20ms编码一帧,每个帧中包含160个语音样点。
  • AMR采用的是基于代数码激励线性预测(ACELP)的编码模式,编码端提取ACELP模型参数(线性预测系数,自适应码本和固定码本索引及增益),解码端接收到数据然后根据这些参数从新合成语音。TD-SCDMA中AMR-NB的实现。此编码器运用了代数码本线性预测(ACELP)混合编码方式,也就是数字语音信号中既包括若干语音特征参数又包括部分波形编码信息,再运用这些特征信息重新合成语音信号的过程。控制这些参数的提取数目,根据速率要求对信息进行取舍而得到了以下8种速率,混合组成如表一所示的自适应语音编码器。如模式AMR_12.20就提取出244比特的参数信息,而模式AMR_4.70却只提取了95比特信息。根据这些比特所含的信息量可以将其分为3类比特class 0,1和2。在信道编码时class 0和1都将会使用循环冗余校验码进行差错检验,对于class 2则根据上一帧进行恢复。
  • (2)AMR-WB
  • AMR-WB”全称为“Adaptive Multi-rate – Wideband”,即“自适应多速率宽带编码”,采样频率为16kHz,是一种同时被国际标准化组织ITU-T和3GPP采用的宽带语音编码标准,也称为G722.2标准。AMR-WB 支持9种不同的编码方式:6.6kb/s 8.85kb/s 12.65kb/s 14.25kb/s 15.85kb/s 18.25kb/s 19.85kb/s ,23.05kb/s,23.85kb/s,提供的语音带宽范围达到50~7000Hz,人声感觉比以前更加自然、舒适和易于分辨 。
  • 特性说明:
  • a. 比特率是指将数字声音由模拟格式转化成数字格式的采样率,采样率越高,还原后的音质就越好。
  • b. 比特率值与现实音频对照:
  • c. 16kbps=电话音质
  • d. 24kbps=增加电话音质、短波广播、长波广播、欧洲制式中波广播
  • e. 40kbps=美国制式中波广播
  • f. 56kbps=话音
  • g. 64kbps=增加话音(手机铃声最佳比特率设定值、手机单声道MP3播放器最佳设定值)
  • h. 112kbps=FM调频立体声广播
  • i. 128kbps=磁带(手机立体声MP3播放器最佳设定值、低档MP3播放器最佳设定值)
  • j. 160kbps=HIFI高保真(中高档MP3播放器最佳设定值)
  • k. 192kbps=CD(高档MP3播放器最佳设定值)
  • l. 256kbps=Studio音乐工作室(音乐发烧友适用)

速率:

MOS得分:

34. OPUS

类型:Audio/Music
制定者:https://www.xiph.org/

作用:Opus可以处理各种音频应用,包括IP语音、视频会议、游戏内聊天、流音乐、甚至远程现场音乐表演。它可以从低比特率窄带语音扩展到非常高清音质的立体声音乐。

技术标准:https://tools.ietf.org/html/rfc6716

两种声音编码的技术:以语音编码为导向的SILK和低延迟的CELT。Opus可以无缝调节高低比特率。在编码器内部它在较低比特率时使用线性预测编码在高比特率时候使用变换编码(在高低比特率交界处也使用两者结合的编码方式)。

延迟:Opus具有非常低的算法延迟(默认为22.5 ms),非常适合用于低延迟语音通话的编码,像是网上上的即时声音流、即时同步声音旁白等等,此外Opus也可以透过降低编码码率,达成更低的算法延迟,最低可以到5 ms。在多个听觉盲测中,Opus都比MP3、AAC、HE-AAC等常见格式,有更低的延迟和更好的声音压缩率。

版税方式: Opus格式是一个开源免费格式,使用上没有任何专利或限制。

应用领域:voip

特性说明:

  • a. 6 kb/秒到510 kb/秒的比特率;单一频道最高256 kb/秒
  • b. 采样率从8 kHz(窄带)到48 kHz(全频)
  • c. 帧大小从2.5毫秒到60毫秒
  • d. 支持恒定比特率(CBR)、受约束比特率(CVBR)和可变比特率(VBR)
  • e. 支持语音(SILK层)和音乐(CELT层)的单独或混合模式
  • f. 支持单声道和立体声;支持多达255个音轨(多数据流的帧)
  • g. 可动态调节比特率,音频带宽和帧大小
  • h. 良好的鲁棒性丢失率和数据包丢失隐藏(PLC)
  • i. 浮点和定点实现

35. OGG(容器)

类型:Audio
制定者:https://www.xiph.org/

作用:ogg是一种多媒体容器,可以包含很多种音视频格式

质量:一般见的.ogg的文件大都ogg的vorbis音频格式,是一种效果和MP3相媲美的音频,我最初接触ogg的时候,以为是纯音频,看过官网的介绍发现他是一个很强大的容器结构,xiph提供的免费的视频Theora和音频vorbis都是开源免费的,都包含在ogg的容器中,此外ogg也能包含很多其他音视频,如:flac,MP3等.

36. iLBC(internet lowbitrate codec)

类型:Audio
制定者:GIPS(google)

性能:它是低比特率的编码解码器,提供在丢包时具有的强大的健壮性。iLBC 提供的语音音质等同于或超过 G.729 和 G.723.1,并比其它低比特率的编码解码器更能阻止丢包。

支持带宽:iLBC 以13.3 kb/s (每帧30毫秒)和15.2 kb/s (每帧20毫秒)

优点: iLBC的主要优势在于对丢包的处理能力。iLBC独立处理每一个语音包,是一种理想的包交换网络语音编解码。在正常情况下,iLBC会记录下当前数据的相关参数和激励信号,以便在之后的数据丢失的情况下进行处理;在当前数据接收正常而之前数据包丢失的情况下,iLBC会对当前解码出的语音和之前模拟生成的语音进行平滑处理,以消除不连贯的感觉;在当前数据包丢失的情况下,iLBC会对之前记录下来的激励信号作相关处理并与随机信号进行混合,以得到模拟的激励信号,从而得到替代丢失语音的模拟语音。总的来说,和标准的低位速率编解码相比,iLBC使用更多自然、清晰的元素,精确的模仿出原始语音信号,被誉为更适合包交换网络使用的可获得高语音质量的编解码。

此外,大部分标准的低位速率编解码,如G.723.1和G.729,仅对300Hz——3400Hz的频率范围进行编码。在这个频率范围里,用G.711编解码所达到的语音质量,就是传统PSTN网络进行语音通话的效果。iLBC充分利用了0——4000Hz的频率带宽进行编码,拥有超清晰的语音质量,这大大超出传统300Hz——3400Hz的频率范围。广受欢迎的Skype网络电话的核心技术之一就是iLBC语音编解码技术,Global IP Sound称该编码器语音品质优于PSTN,而且能忍受高达30%的封包损失。

总的来说,在相同的包交换通信条件下,iLBC的语音质量效果比G.729、G.723.1以及G.711更好,声音更加圆润饱满,且丢包率越高,iLBC在语音质量上的优势就越明显!

目前,在国际市场上已经有很多VoIP的设备和应用厂商把iLBC集成到他们的产品中。如:Skype, Nortel等。在国内市场上,目前尚无VoIP厂家正式推出支持“iLBC”的网关设备,迅时公司 率先推出支持“iLBC”的中继网关和IAD设备。

横向对比:

 

37. ISAC(Internet Speech Audio Codec)

  • 类型:Audio
  • 制定者:GIPS(google)
  • 应用范围:voip(曾被很多公司应用,包括AIM,QQ,Google Talk)
  • 版税方式:FreeI
  • 采样率支持:16khz,24khz,32khz(webrtc中代码)支持ABR,VBR和CBR:10kbps ~ 52kbps自适应包大小:30~60ms
  • 算法延时:frame + 3ms。
  • 框图如下:


常用codec综合比较


图1. 不同编解码综合对比

图2. 不同编解码延迟

图3. 不同编解码质量

 

参考资料:

1. https://www.itu.int/en/Pages/default.aspx

2https://www.xiph.org/

3Google

4. 音频编解码标准


学浅,偶有纰漏,望不吝指出。本内容由灵声讯音频-语音算法实验室整理创作,转载和使用请与“灵声讯”联系,联系方式:音频/识别/合成算法QQ群(696554058)


福利小贴士:
理科只是为自己插上腾飞的翅膀,文科才能让你飞黄腾达,同意的点赞,谢谢!
赠送原创诗歌公众号“天一色”,以飨读者!

发布于 2020-12-18

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/king_audio_video/article/details/111396370

智能推荐

hive使用适用场景_大数据入门:Hive应用场景-程序员宅基地

文章浏览阅读5.8k次。在大数据的发展当中,大数据技术生态的组件,也在不断地拓展开来,而其中的Hive组件,作为Hadoop的数据仓库工具,可以实现对Hadoop集群当中的大规模数据进行相应的数据处理。今天我们的大数据入门分享,就主要来讲讲,Hive应用场景。关于Hive,首先需要明确的一点就是,Hive并非数据库,Hive所提供的数据存储、查询和分析功能,本质上来说,并非传统数据库所提供的存储、查询、分析功能。Hive..._hive应用场景

zblog采集-织梦全自动采集插件-织梦免费采集插件_zblog 网页采集插件-程序员宅基地

文章浏览阅读496次。Zblog是由Zblog开发团队开发的一款小巧而强大的基于Asp和PHP平台的开源程序,但是插件市场上的Zblog采集插件,没有一款能打的,要么就是没有SEO文章内容处理,要么就是功能单一。很少有适合SEO站长的Zblog采集。人们都知道Zblog采集接口都是对Zblog采集不熟悉的人做的,很多人采取模拟登陆的方法进行发布文章,也有很多人直接操作数据库发布文章,然而这些都或多或少的产生各种问题,发布速度慢、文章内容未经严格过滤,导致安全性问题、不能发Tag、不能自动创建分类等。但是使用Zblog采._zblog 网页采集插件

Flink学习四:提交Flink运行job_flink定时运行job-程序员宅基地

文章浏览阅读2.4k次,点赞2次,收藏2次。restUI页面提交1.1 添加上传jar包1.2 提交任务job1.3 查看提交的任务2. 命令行提交./flink-1.9.3/bin/flink run -c com.qu.wc.StreamWordCount -p 2 FlinkTutorial-1.0-SNAPSHOT.jar3. 命令行查看正在运行的job./flink-1.9.3/bin/flink list4. 命令行查看所有job./flink-1.9.3/bin/flink list --all._flink定时运行job

STM32-LED闪烁项目总结_嵌入式stm32闪烁led实验总结-程序员宅基地

文章浏览阅读1k次,点赞2次,收藏6次。这个项目是基于STM32的LED闪烁项目,主要目的是让学习者熟悉STM32的基本操作和编程方法。在这个项目中,我们将使用STM32作为控制器,通过对GPIO口的控制实现LED灯的闪烁。这个STM32 LED闪烁的项目是一个非常简单的入门项目,但它可以帮助学习者熟悉STM32的编程方法和GPIO口的使用。在这个项目中,我们通过对GPIO口的控制实现了LED灯的闪烁。LED闪烁是STM32入门课程的基础操作之一,它旨在教学生如何使用STM32开发板控制LED灯的闪烁。_嵌入式stm32闪烁led实验总结

Debezium安装部署和将服务托管到systemctl-程序员宅基地

文章浏览阅读63次。本文介绍了安装和部署Debezium的详细步骤,并演示了如何将Debezium服务托管到systemctl以进行方便的管理。本文将详细介绍如何安装和部署Debezium,并将其服务托管到systemctl。解压缩后,将得到一个名为"debezium"的目录,其中包含Debezium的二进制文件和其他必要的资源。注意替换"ExecStart"中的"/path/to/debezium"为实际的Debezium目录路径。接下来,需要下载Debezium的压缩包,并将其解压到所需的目录。

Android 控制屏幕唤醒常亮或熄灭_android实现拿起手机亮屏-程序员宅基地

文章浏览阅读4.4k次。需求:在诗词曲文项目中,诗词整篇朗读的时候,文章没有读完会因为屏幕熄灭停止朗读。要求:在文章没有朗读完毕之前屏幕常亮,读完以后屏幕常亮关闭;1.权限配置:设置电源管理的权限。

随便推点

目标检测简介-程序员宅基地

文章浏览阅读2.3k次。目标检测简介、评估标准、经典算法_目标检测

记SQL server安装后无法连接127.0.0.1解决方法_sqlserver 127 0 01 无法连接-程序员宅基地

文章浏览阅读6.3k次,点赞4次,收藏9次。实训时需要安装SQL server2008 R所以我上网上找了一个.exe 的安装包链接:https://pan.baidu.com/s/1_FkhB8XJy3Js_rFADhdtmA提取码:ztki注:解压后1.04G安装时Microsoft需下载.NET,更新安装后会自动安装如下:点击第一个傻瓜式安装,唯一注意的是在修改路径的时候如下不可修改:到安装实例的时候就可以修改啦数据..._sqlserver 127 0 01 无法连接

js 获取对象的所有key值,用来遍历_js 遍历对象的key-程序员宅基地

文章浏览阅读7.4k次。1. Object.keys(item); 获取到了key之后就可以遍历的时候直接使用这个进行遍历所有的key跟valuevar infoItem={ name:'xiaowu', age:'18',}//的出来的keys就是[name,age]var keys=Object.keys(infoItem);2. 通常用于以下实力中 <div *ngFor="let item of keys"> <div>{{item}}.._js 遍历对象的key

粒子群算法(PSO)求解路径规划_粒子群算法路径规划-程序员宅基地

文章浏览阅读2.2w次,点赞51次,收藏310次。粒子群算法求解路径规划路径规划问题描述    给定环境信息,如果该环境内有障碍物,寻求起始点到目标点的最短路径, 并且路径不能与障碍物相交,如图 1.1.1 所示。1.2 粒子群算法求解1.2.1 求解思路    粒子群优化算法(PSO),粒子群中的每一个粒子都代表一个问题的可能解, 通过粒子个体的简单行为,群体内的信息交互实现问题求解的智能性。    在路径规划中,我们将每一条路径规划为一个粒子,每个粒子群群有 n 个粒 子,即有 n 条路径,同时,每个粒子又有 m 个染色体,即中间过渡点的_粒子群算法路径规划

量化评价:稳健的业绩评价指标_rar 海龟-程序员宅基地

文章浏览阅读353次。所谓稳健的评估指标,是指在评估的过程中数据的轻微变化并不会显著的影响一个统计指标。而不稳健的评估指标则相反,在对交易系统进行回测时,参数值的轻微变化会带来不稳健指标的大幅变化。对于不稳健的评估指标,任何对数据有影响的因素都会对测试结果产生过大的影响,这很容易导致数据过拟合。_rar 海龟

IAP在ARM Cortex-M3微控制器实现原理_value line devices connectivity line devices-程序员宅基地

文章浏览阅读607次,点赞2次,收藏7次。–基于STM32F103ZET6的UART通讯实现一、什么是IAP,为什么要IAPIAP即为In Application Programming(在应用中编程),一般情况下,以STM32F10x系列芯片为主控制器的设备在出厂时就已经使用J-Link仿真器将应用代码烧录了,如果在设备使用过程中需要进行应用代码的更换、升级等操作的话,则可能需要将设备返回原厂并拆解出来再使用J-Link重新烧录代码,这就增加了很多不必要的麻烦。站在用户的角度来说,就是能让用户自己来更换设备里边的代码程序而厂家这边只需要提供给_value line devices connectivity line devices