音视频入门/音视频基础_gop motion vector residual-程序员宅基地

技术标签: 音视频基础  音视频/直播  

直播产品的种类:

泛娱乐化直播:

       花椒,映客等娱乐直播, 斗鱼,熊猫,yy 等游戏直播

实时互动直播

音视频会议,教育直播等, 像思科,全时,声网

直播架构: todo

常用的工具: ffmpeg , ffplay, flashplayer,  

搭建流媒体服务:

准备流媒体服务器(Linux 或 Mac)

编译并安装Nginx 服务

配置RTMP 服务并启动 Nginx 服务

 

声音三要素

音调: 就是音频, 男生  >  女生  >  儿童

音量: 振动的幅度

音色: 它与材质有很大关系, 本质是谐波

音量与音调

图:v-9-声音三要素.jpeg 

 

音色(音品) : v-10-声音三要素.jpeg

 

 

人类的听觉范围: 20Hz —    20kHz

人类的发声范围: 85Hz ——  1100 Hz

 

听觉/发声范围: v-12-声音三要素.jpeg

 

音频量化过程:

模拟数据  —》  采样 —〉 量化 —》  编码 —〉 数字信号

 

量化基本概念:

采样大小: 一个采样用多少bit 存放。常用的是 16bit

采样率:    采样频率 8k, 16k, 32k, 44.1k   , 48k

声道数:   单声道, 双声道, 多声道

 

音频量化过程: v-13-音频量化.jpeg

 

 

码率计算:

要计算一个PCM音频流的 码率  公式如: 采样率 x 采样大小  x 声道数

例如: 采样率为44.KHz,  采样大小为 16bit, 双声道的PCM 编码的WAV 文件? 

它的码率为 44.1K x 16 x 2 = 1411.2 kb/s

音频压缩技术:

目的/手段是:消除冗余数据;

冗余数据包括: 人耳听觉范围外的音频信号,以及被掩蔽掉的音频 信号。

信号的掩蔽分为: 频域掩蔽  和 时域掩蔽

方法: 哈夫曼无损编码

频域掩蔽效应: v-18-音频压缩.jpeg

时域掩蔽效应: v-19-音频压缩.jpeg 

音频编码过程:

v-20-音频压缩.jpeg

 

常见的音频编码器

常见的音频编码器 包括 OPUS,   AAC,  Vorbis, Speex,  iLBC,  AMR, G.711 等。

网上评测结果:     OPUS   >  AAC   >  Vorbis

音频编码器性能对比:

v-22-音频编码器.jpeg

AAC介绍:

AAC( Advanced Audio Coding) 目的是取代MP3 格式;

 

目前常用的规格有:  

AAC  LC  (Low  Complexity) 

AAC   HE  V1  ( AAC  +  SBR 技术)

AAC   HE  V2( AAC + SBR技术 +  PS技术)

 

SBR (Spectral Band Replication)

PS( Parametric Stereo)

 

AAC 格式 有哪些?

ADIF ( Audio Data Interchange Format )   //这种格式只能从头开始解码,常用在磁盘文件中。

ADTS(Audio Data Transport Stream)        //这种格式每一帧都有一个同步字,可以在音频流的任何位置开始解码,它类似数据流格式

 

AAC 编码库那个好?

 

Libfdk_AAC  > ffmpeg AAC  > libfaac > libvo_aacenc

 

H264 基本概念

I 帧:  关键帧, 采用帧内压缩技术。

P 帧 :  向前参考帧, 压缩时只参考前一个帧, 属于帧间压缩技术。

B 帧 : 双向参考帧,压缩时既参考前一帧,也参考后一帧,帧间压缩技术。

GOF  : 一组帧的 结构 如图:v-29-视频.jpeg

SPS  与 PPS

SPS   Sequence Parameter Set , 序列参数集 ; 存放帧数,参考帧数目, 解码图像尺寸, 帧场编码模式选择标识等。

PPS   Picture Parameter Set, 图像参数集; 存放熵编码模式选择标识, 片组数组,初始量化参数,去方块滤波系数调整标识等。

 

视频花屏/卡顿 原因

如果 GOP分组中的P 帧 丢失会造成解码端的图像发生错误。

为了避免花屏问题的发生,一般如果发现P帧 或者I帧 丢失,就不显示本 GOP内的所有帧, 直到下一个 I 帧来后重新刷新图像。

 

视频都有哪些视频编码器?

x264/x265

openH264

vp8/vp9

 

H264压缩技术

帧内预测压缩,解决的是 空域数据冗余 问题 

帧间预测压缩, 解决的是  时域数据 冗余问题

整数离散余弦变换(DCT);

CABAC压缩。

运动矢量 与补偿压缩;  Motion Vector  + Residual Picture

 

预测模式与残差值压缩:

Prediction  Mode  Info  + Residual  Picture

图: v-40-视频.jpeg 

图 : v-41-视频.jpeg

 

 

DCT 压缩:

图: v-42-视频.jpeg

图: v-43-视频.jpeg

VLC压缩, 和 CABAC 压缩

 

H264结构图:

v-45-h264.jpeg

 

H264编码分层:

NAL层:

Network Abstraction Layer, 视频数据网络抽象层

VCL 层:

Video Coding  Layer, 视频数据编码层。

码流基本概念:

SODB  (String Of  Data  Bits;) 原始数据比特流,长度不一定是 8的倍数,它是由VCL层产生的。

RBSP ( Raw Byte Sequence Payload, SODB + trailing bits)  算法是在SODB最后一位补1, 不按字节对齐则补0

EBSP ( Encapsulate  Byte  Sequence Payload);  需要两个连续的0x00  就增加一个0x03

NALU   :  NAL  Header   + EBSP

 

NAL Unit  (简称 NALU): 

包括: NALU头部  + 一个切片

切片 包括  切片头(slice header) + 切片数据(slice data)

切片数据由 很多 MacroBlock (宏块) 组成 ;

MB (MacroBlock) 由 mb_type;  mb_pred;  coded residual  组成

一帧图片 使用 H. 264编码器编码 ,可能可以有多张切片 分出来。

H264码流分层  图 

NAL Header (NALU 头部)

F:  0  // 在 H.264规范中规定了这一位必须为0

NRI :  // 占2位, 指示重要性,暂无用。

Type :   //占5位,这个NALU 单元的类型。 

5   //I 帧,IDR 图像的片

7  //   序列参数集

8  //   图像参数集

 

24   // STAP-A   单一时间的组合包

25   //STAP-B 单一时间的组合包

26 //MTAP16   多个时间的组合包

27 //MTAP24   多个时间的组合包

 

28   //FU-A    ; 分片的单元

29   // FU-B   ; 分片的单元

NAL 类型介绍

单一类型   //一个RTP包  只包含  一个  NALU

组合类型   //一个RTP包   包含多个NALU,   类型是24-27

分片类型   //一个NALU 单元分成多个RTP包,类型是 28和 29

 

单一NALU的RTP包

图:v-57-nal.jpeg

组合NALU的RTP包

图:v-58-nal.jpeg

分片NALU 的  RTP包

图: v-59-nal.jpeg

FU Header  (占一个字节)

S   // start bit, 用于指明分片的开始

E   // end bit, 用于指明分片的结束

R   //0   ; 未使用

Type    //指明  NAL 类型

 

YUV

YUV  也称为  YCbCr :  是电视系统所采用的一种颜色编码方法

Y 表示明亮度/  灰阶值, 它是基础信号。

U 和 V 表示的则是 色度 ,UV的作用 是描述 影像色彩及饱和度,他们用于指定像素的颜色。

 

YUV 常见格式:

YUV4:2:0 (YCbCr  4:2:0)

YUV4:2:2 ( YCbCr  4:2:2)

YUV4:4:4 ( YCbCr  4:4:4)

 

YUV4:2:0

并不意味着只有  Y, Cb 两个分量,没有Cr分量。 它实际上指的是 对每行扫描线来说,只有一种色度分量,它以2:1 的抽样率存储

相邻的扫描行存储不同的色度分量,也就是说,如果一行是 4:2:0, 下一行就是4:0:2, 再下一行是4:2:0  。。。以此类推。

 

YUV存储格式

planar(平面)

I420  :  YYYYYYYY  UU  VV  => YUV420P

YV12 :  YYYYYYYY  VV   UU => YUV420P

 

Packed(打包)

NV12 :  YYYYYYYY   UVUV  => YUV420SP

NV21 :  YYYYYYYY   VUVU  => YUV420SP

称为专业的音频工程师还要学习啥?

音/视频采集;  音/视频硬件 编/解码;  FFMPEG;

视频渲染与 OpenGL  ;   x264 优化;  交叉编译与优化;

WebRTC;  

行业痛点?

视频秒开;  回音消除;  音频降噪; 视频出现花屏/卡顿/绿边;  手机发烫;  音视频同步;

 

 

 

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/u013862108/article/details/87866471

智能推荐

C#连接OPC C#上位机链接PLC程序源码 1.该程序是通讯方式是CSharp通过OPC方式连接PLC_c#opc通信-程序员宅基地

文章浏览阅读565次。本文主要介绍如何使用C#通过OPC方式连接PLC,并提供了相应的程序和学习资料,以便读者学习和使用。OPC服务器是一种软件,可以将PLC的数据转换为标准的OPC格式,允许其他软件通过标准接口读取或控制PLC的数据。此外,本文还提供了一些学习资料,包括OPC和PLC的基础知识,C#编程语言的教程和实例代码。这些资料可以帮助读者更好地理解和应用本文介绍的程序。1.该程序是通讯方式是CSharp通过OPC方式连接PLC,用这种方式连PLC不用考虑什么种类PLC,只要OPC服务器里有的PLC都可以连。_c#opc通信

Hyper-V内的虚拟机复制粘贴_win10 hyper-v ubuntu18.04 文件拷贝-程序员宅基地

文章浏览阅读1.6w次,点赞3次,收藏10次。实践环境物理机:Windows10教育版,操作系统版本 17763.914虚拟机:Ubuntu18.04.3桌面版在Hyper-V中的刚安装好Ubuntu虚拟机之后,会发现鼠标滑动很不顺畅,也不能向虚拟机中拖拽文件或者复制内容。在VMware中,可以通过安装VMware tools来使物理机和虚拟机之间达到更好的交互。在Hyper-V中,也有这样的工具。这款工具可以完成更好的鼠标交互,我的..._win10 hyper-v ubuntu18.04 文件拷贝

java静态变量初始化多线程,持续更新中_类初始化一个静态属性 为线程池-程序员宅基地

文章浏览阅读156次。前言互联网时代,瞬息万变。一个小小的走错,就有可能落后于别人。我们没办法去预测任何行业、任何职业未来十年会怎么样,因为未来谁都不能确定。只能说只要有互联网存在,程序员依然是个高薪热门行业。只要跟随着时代的脚步,学习新的知识。程序员是不可能会消失的,或者说不可能会没钱赚的。我们经常可以听到很多人说,程序员是一个吃青春饭的行当。因为大多数人认为这是一个需要高强度脑力劳动的工种,而30岁、40岁,甚至50岁的程序员身体机能逐渐弱化,家庭琐事缠身,已经不能再进行这样高强度的工作了。那么,这样的说法是对的么?_类初始化一个静态属性 为线程池

idea 配置maven,其实不用单独下载Maven的。以及设置新项目配置,省略每次创建新项目都要配置一次Maven_安装idea后是不是不需要安装maven了?-程序员宅基地

文章浏览阅读1w次,点赞13次,收藏43次。说来也是惭愧,一直以来,在装环境的时候都会从官网下载Maven。然后再在idea里配置Maven。以为从官网下载的Maven是必须的步骤,直到今天才得知,idea有捆绑的 Maven 我们只需要搞一个配置文件就行了无需再官网下载Maven包以后再在新电脑装环境的时候,只需要下载idea ,网上找一个Maven的配置文件 放到 默认的 包下面就可以了!也省得每次创建项目都要重新配一次Maven了。如果不想每次新建项目都要重新配置Maven,一种方法就是使用默认的配置,另一种方法就是配置 .._安装idea后是不是不需要安装maven了?

奶爸奶妈必看给宝宝摄影大全-程序员宅基地

文章浏览阅读45次。家是我们一生中最重要的地方,小时候,我们在这里哭、在这里笑、在这里学习走路,在这里有我们最真实的时光,用相机把它记下吧。  很多家庭在拍摄孩子时有一个看法,认为儿童摄影团购必须是在风景秀丽的户外,即便是室内那也是像大酒店一样...

构建Docker镜像指南,含实战案例_rocker/r-base镜像-程序员宅基地

文章浏览阅读429次。Dockerfile介绍Dockerfile是构建镜像的指令文件,由一组指令组成,文件中每条指令对应linux中一条命令,在执行构建Docker镜像时,将读取Dockerfile中的指令,根据指令来操作生成指定Docker镜像。Dockerfile结构:主要由基础镜像信息、维护者信息、镜像操作指令、容器启动时执行指令。每行支持一条指令,每条指令可以携带多个参数。注释可以使用#开头。指令说明FROM 镜像 : 指定新的镜像所基于的镜像MAINTAINER 名字 : 说明新镜像的维护(制作)人,留下_rocker/r-base镜像

随便推点

毕设基于微信小程序的小区管理系统的设计ssm毕业设计_ssm基于微信小程序的公寓生活管理系统-程序员宅基地

文章浏览阅读223次。该系统将提供便捷的信息发布、物业报修、社区互动等功能,为小区居民提供更加便利、高效的服务。引言: 随着城市化进程的加速,小区管理成为一个日益重要的任务。因此,设计一个基于微信小程序的小区管理系统成为了一项具有挑战性和重要性的毕设课题。本文将介绍该小区管理系统的设计思路和功能,以期为小区提供更便捷、高效的管理手段。四、总结与展望: 通过本次毕设项目,我们实现了一个基于微信小程序的小区管理系统,为小区居民提供了更加便捷、高效的服务。通过该系统的设计与实现,能够提高小区管理水平,提供更好的居住环境和服务。_ssm基于微信小程序的公寓生活管理系统

如何正确的使用Ubuntu以及安装常用的渗透工具集.-程序员宅基地

文章浏览阅读635次。文章来源i春秋入坑Ubuntu半年多了记得一开始学的时候基本一星期重装三四次=-= 尴尬了 觉得自己差不多可以的时候 就吧Windows10干掉了 c盘装Ubuntu 专心学习. 这里主要来说一下使用Ubuntu的正确姿势Ubuntu(友帮拓、优般图、乌班图)是一个以桌面应用为主的开源GNU/Linux操作系统,Ubuntu 是基于DebianGNU/Linux,支..._ubuntu安装攻击工具包

JNI参数传递引用_jni引用byte[]-程序员宅基地

文章浏览阅读335次。需求:C++中将BYTE型数组传递给Java中,考虑到内存释放问题,未采用通过返回值进行数据传递。public class demoClass{public native boolean getData(byte[] tempData);}JNIEXPORT jboolean JNICALL Java_com_core_getData(JNIEnv *env, jobject thisObj, jbyteArray tempData){ //resultsize为s..._jni引用byte[]

三维重建工具——pclpy教程之点云分割_pclpy.pcl.pointcloud.pointxyzi转为numpy-程序员宅基地

文章浏览阅读2.1k次,点赞5次,收藏30次。本教程代码开源:GitHub 欢迎star文章目录一、平面模型分割1. 代码2. 说明3. 运行二、圆柱模型分割1. 代码2. 说明3. 运行三、欧几里得聚类提取1. 代码2. 说明3. 运行四、区域生长分割1. 代码2. 说明3. 运行五、基于最小切割的分割1. 代码2. 说明3. 运行六、使用 ProgressiveMorphologicalFilter 分割地面1. 代码2. 说明3. 运行一、平面模型分割在本教程中,我们将学习如何对一组点进行简单的平面分割,即找到支持平面模型的点云中的所有._pclpy.pcl.pointcloud.pointxyzi转为numpy

以NFS启动方式构建arm-linux仿真运行环境-程序员宅基地

文章浏览阅读141次。一 其实在 skyeye 上移植 arm-linux 并非难事,网上也有不少资料, 只是大都遗漏细节, 以致细微之处卡壳,所以本文力求详实清析, 希望能对大家有点用处。本文旨在将 arm-linux 在 skyeye 上搭建起来,并在 arm-linux 上能成功 mount NFS 为目标, 最终我们能在 arm-linux 里运行我们自己的应用程序. 二 安装 Sky..._nfs启动 arm

攻防世界 Pwn 进阶 第二页_pwn snprintf-程序员宅基地

文章浏览阅读598次,点赞2次,收藏5次。00为了形成一个体系,想将前面学过的一些东西都拉来放在一起总结总结,方便学习,方便记忆。攻防世界 Pwn 新手攻防世界 Pwn 进阶 第一页01 4-ReeHY-main-100超详细的wp1超详细的wp203 format2栈迁移的两种作用之一:栈溢出太小,进行栈迁移从而能够写入更多shellcode,进行更多操作。栈迁移一篇搞定有个陌生的函数。C 库函数 void *memcpy(void *str1, const void *str2, size_t n) 从存储区 str2 _pwn snprintf

推荐文章

热门文章

相关标签