多媒体技术¶
复习课¶
第一章 绪论¶
- 媒体
- 表现域/维
- 数字化
- 特征
第二章 视频图像压缩¶
- 人眼的视觉特征
利用人眼的视觉特征压缩
- YUV
- 量化编码
- 帧率
- 块效应滤波
- 假纹理
- 视觉关注度
-
降低量化级数
-
RGB、HSI、YUV
-
优势、适用场景
- RGB 与 HSI 的转换
- 均值、方差、旋转角
-
YUV 用于彩色图像压缩
-
冗余与压缩方法
-
时间、空间、视觉、频率
-
帧间、帧内编码、变换编码
-
压缩评价指标
-
熵编码,无失真度指标
-
PSNR
-
游程编码
-
只对交流系数编码
-
熵编码(哈夫曼、算术编码)
-
香农-费诺
- 哈夫曼编码
- 上放策略:码方差更小
- 平均码长和码方差计算
-
算术编码
- 不排序、按自然顺序,从 0 到 1 赋值(从下往上)
-
LZW 字典编码
-
LZ77:隐式字典,要求上下文相关性比较强
- LZ78:二元形式字典,为了照顾查不到字典的情况
-
LZW:要将字典初始化
- 编解码的规则
-
运动估计
-
运动矢量估计
- 快速算法:三步搜索法
- 运动矢量不一定反映真实的运动,只要残差足够小就行
- 宏块包含了不同的运动时,残差变大,细分宏块,但会增加运动矢量的数量。
-
帧内预测
- 预测哪一块和纹理方向有关
-
帧类型
-
I 帧、P 帧、B 帧
- B 帧会打乱编码顺序,且需要缓存
- I 帧一般比 P 帧大
-
视频帧不应当全 P 帧
- 错误的时间传递
- 进度条不能调整
- 场景切换(?)
-
宏块类型
-
Intra 宏块、Inter 宏块
-
P 帧 Intra 宏块
-
出现了新目标(极端情况:场景切换)
-
目标的运动太剧烈
-
内容本身空间相关性太强
-
变换编码
-
傅里叶变换的意义,基图像加权和形式
- 频率图像:坐标是频率,值是权重。
-
对小块进行频率域的变换
-
量化编码
-
与图像处理的“量化”意义不同
- 能量集中在低频部分
- 人眼对高频的感受不如低频强
-
视频压缩流程
-
缓存中得到的是解码图像
- 帧间预测与帧内预测的选择,先讨论帧类型
-
预测是对块的预测
-
码流结构
- 压缩标准 JPEG、MPEG、H.26X
- 分级压缩
第三章 语音音频压缩¶
-
人耳、发声的生理特性
-
语音短时平稳性——处理帧长
- 清浊音与周期性
- 耳蜗的频率位置映射
- 闻域曲线
-
听觉掩蔽
- 时域
- 频域
-
波形、参数、感知编码
-
波形编码实际就是数字化过程(采样、量化)
脉冲编码调制
-
非均匀量化
先进行非线性压扩,再进行均匀量化。
-
PCM→DPCM(预测)→ADPCM(预测)→子带 ADPCM(频率变换)
-
语音数字化模型
四个参数,浊清不同处理
- 语音/音频混合编码
闭环模式与开环模式(如何选择的问题)
- 语音音频标准的 MP3
MP3 是 MPEG1 的第 3 层
-
双声道编码
-
和差立体声
-
强度立体声
-
空间声学参数
-
听觉定位机制
- 水平方位
- 时间差:低频
- 强度差:高频,遮挡
- 垂直方位
- 耳廓效应
-
空间音频编码
-
下混
-
重建
-
三维音频补充
第四章 多媒体通信与流媒体¶
-
面向通信的视频编码
-
可伸缩视频编码:带宽波动
-
分布式视频编码:摄像头
-
视频容错
-
语音增强、听音增强
-
远端语音:去噪
-
近端听音:增强
- 噪声抵消策略
- 语音特性修正策略
- 优缺点
-
VoIP 话音质量
-
影响因素
-
压缩算法
- 活动语音检测
舒适噪声
-
顺序流、实时流
- 顺序流
- 质量保障、有延时
- 流媒体传输原理协议
第五章 视频图像分析与检索¶
- 基于内容检索
色彩特征,色调直方图。
- 检索有排序
-
一对一不需要排序
-
双重比较法
-
小阈值判断起始
- 大阈值判断变化
课件¶
第一章 多媒体技术导论¶
1 多媒体技术基本概念¶
1.1 媒体的概念¶
- 在计算机领域中,媒体有两种含义,一是信息的载体,如磁带、磁盘、光盘和半导体存储器,一是指载体的信息,如文字、声音、图形和图像。
- 按照国际电信联盟 ITU-T 建议的定义,媒体主要有五种形式,这些媒体形式在多媒体领域是相互密切关联的。
- 感知媒体
- 表示媒体
- 表现媒体
- 存储媒体
- 传输媒体
- 从媒体信息的获取途径来划分
- 视听味嗅触
- 我们听说过计算机视觉、计算机听觉,为什么很少听说计算机嗅觉、味觉、触觉呢?这其中的技术难点是什么呢?
1.2 媒体的分类¶
- 视觉
- 静止
- 图像
- 图形
- 文字
- 符号
- 语言文字
- 动态
- 视频
- 动态影像视频
- 真实感三维动画
- 动画
- 二维动画
- 三维动画
- 其它表示为视觉的媒体
- 听觉
- 声音
- 声响(自然界)
- 语音(人类语言)
- 音乐
- 触觉
- 振动
- 运动
- 传感/发生器
- 其它(嗅觉、味觉)
1.3 多媒体的基本概念¶
- 多媒体 = 多种媒体数据 + 一系列交互
- 交互是人类获取信息、掌握知识的重要途径
1.4 多媒体的描述¶
-
值
-
表现域
-
表现维
-
多媒体的数字化
-
采样
采样(sampling)也称取样,指把时间域或空间域的连续量转化成离散量的过程
-
量化
指将信号的连续取值近似为有限多个离散值的过程
1.5 多媒体技术的主要特征¶
- 多维性
多媒体技术的多维性指的是,它把计算机所能处理的信息媒体的种类或范围扩大。不仅局限于原来的数据、文本或单一的语音、图像等,还包括人类的视、听、嗅、味与触觉。
- 交互性
交互可以做到自由的控制和干预信息的处理,增加对信息的注意力和理解,延长信息的保留时间。在计算机辅助教学、交互艺术等方面都取得了巨大的成功。
- 集成性
多媒体的集成性主要表现在多媒体信息的集成和处理这些媒体的设备与设施的集成。多媒体系统是建立在一个大的信息环境之下,系统的各种设备与设施应该成为一个整体,以充分发挥多媒体特性的协同效应。
- 主观性
多媒体信息通常是由人的感官来接受的,因此多媒体技术需要考虑人的生理和心理等主观特性,如人眼的视觉特性在视频技术中就得到广泛应用。
- 视觉关注度
- 几何错觉
- 色彩错觉
2 多媒体技术研究内容¶
2.1 视频图像压缩的必要性¶
- 视频图像压缩的基本依据
- 空间冗余
- 频率冗余
- 视觉冗余
- 熵冗余
- 时间冗余
- 视频图像压缩的基本方法
- 帧内预测编码
- 变换编码
- 量化编码
- 熵编码
- 帧间预测编码
- 时间冗余,求差
2.2 语音音频压缩¶
- 基本概念
从信息论的观点来看,描述信源的数据是信息和数据冗余之和,即:数据=信息+数据冗余。
- 语音音频编码分类
- 波形编码
- 参数编码
-
混合编码
-
参数编码与语音压缩
参数编码是从语音波形信号中提取生成语音的参数,使用这些参数通过语音生成模型重构出语音,使重构的语音信号尽可能地保持原始语音信号的语意。也就是说,参数编码是把语音信号产生的数字模型作为基础,然后求出数字模型的模型参数,再按照这些参数还原数字模型,进而合成语音。
-
听觉掩蔽与音频压缩
-
人耳接收一个声音时有可能受到另一个声音的干扰或压制,这称为掩蔽现象。
- 前向掩蔽
- 时域掩蔽
2.3 多媒体通信与流媒体¶
- 媒体同步
- 低时延通信
- 带宽适应
- 容错
- 流媒体技术
2.4 视频图像检索与分析¶
- 图像检索
- 图像分割
- 基于人工交互的分割
- 语义分割
- 软分割\抠图
- 目标检测与识别
- 目标跟踪
- 行为识别
3 多媒体技术应用领域¶
3.1 数字安防¶
3.2 数字娱乐¶
3.3 数字医疗¶
3.4 数字教育¶
第二章 视频图像压缩¶
1 视频图像压缩导论¶
1.1 人眼的视觉特性¶
-
人眼结构
-
虹膜的收缩和扩张控制着进入眼睛的光量。
- 透射光在视网膜上成像。视网膜上的传感器将信息传输给大脑
-
视网膜上有两类光感受器:锥状体和杆状体
-
人眼的视觉特性
-
人眼的光谱灵敏度
-
视觉的亮度适应性
- 明适应
- 暗适应
- 人眼能通过调节感光灵敏度来适应范围很广的亮度
- 人眼对目标亮度的感知更多依赖于目标跟背景之间的亮度差
-
“马赫”带
-
侧抑制
-
几何错觉
填充信息
-
视觉关注度/显著度
-
视频图像基本参数
-
空间分辨率
- 灰度分辨率
- 时间分辨率
-
如果选择降低上述三种分辨率参数中的一种来减少数据量,你会选择哪种?——灰度
-
色彩模型
-
RGB 模型
- 符合人眼客观构造,但不符合主观理解
-
HSI 模型
- 色调与亮度、饱和度相互独立,对光照变化更鲁棒
-
RGB 到 HSI 模型转换
-
YCbCr
是用于彩色图像压缩时的一种表色系统
- 采样依据:人类视觉系统(HVS)对亮度比对彩色敏感
1.2 视频图像压缩基础¶
-
数据冗余
-
时间冗余
- 空间冗余
-
视觉冗余
-
评价指标
-
压缩比、失真度、计算复杂度
- 客观质量评价指标——峰值信噪比
- 均方误差 MSE 越小,PSNR 越大,质量越好
-
主观质量评价指标
- 绝对评价尺度
- 相对评价尺度
-
标准化
压缩标准 JPEG、MPEG、H.26X
1.3 视频图像压缩发展历程¶
2 数据压缩基本方法¶
2.1 游程编码¶
- 原理:如果数据项 d 在输入流中出现 n 次,则以单个字符对 nd 替换 n 次出现者。这个连续出现的数据项叫做游程 n,这种数据压缩方法称为游程编码或 RLE
- 需要特殊的提示字符
2.2 熵编码¶
- 熵:信息的度量
- 变长码
- 把短码赋给出现频率高的字符
- 遵循前缀性。
- 香农-费诺编码
- 哈夫曼编码
- 步骤
- 信源符号按概率分布大小,以递减次序排列
- 取两个最小的概率,分别赋以 0,1。然后把这两个概率值相加,作为新概率值与其他概率重新排序
- 按重排概率值,重复(2)直到概率和达到 1 为止
- 由后向前排列码序,即得哈夫曼编码使用
- 注意
- 使用上放策略,码方差更小
- 哈夫曼编码过程编出的最佳码不是唯一的,但其平均码长是一样的,其中码方差最小者最佳。因此在哈夫曼编码过程中,合并后的新符号应当排在其它相同概率符号的上面。
- D 进制哈夫曼编码
- 每次合并 D 个符号
- 信源符号个数有要求,不符合要求的话需要补上概率为 0 的符号
- 算术编码
- Huffman 编码中每个符号都用整数个 bits 来表示,影响编码效率。
- 若能把一串符号作为编码单位,则效率还可提高。
- 算术编码不排序,按自然顺序从下往上排
- 编码过程、解码过程
- 新增字典第几项,等于第几次解码项加下一次解码的第一个字符
2.3 字典编码¶
- 为了达到好的性能,需要知道信源的结构信息
- 静态字典
- 自适应字典
- LZ77
- 搜索缓冲区为当前字典
- 三元组\<o,l,c>,以应对无字典可查的情况
- 假设模式满足局部性
- LZ78
- 没有搜索缓冲区——代之以显式的字典
- 编码器/解码器必须同步建立字典
- 二元组\<i,c>,同样要应对无字典可查的情况
- 字典大小控制
- 停止增长字典
- 删除一些较早用过的项
- 将字典全部删除
- LZW
- 字典初始化: 将单个信源 符号按照符号顺序写入字典表
- 编码和解码?
- 字典结构——树
3 视频图像压缩方法¶
-
视频压缩的可行性
-
视频压缩的基本依据
- 空间冗余
- 频率冗余
- 视觉冗余
- 熵冗余
- 时间冗余
-
视频压缩的基本方法
- 帧内预测编码
- 变换编码
- 量化编码
- 熵编码
- 帧间预测编码
3.1 预测编码¶
- 帧间预测编码的运动估计
- 运动估计:对两帧图像之间的运动位移进行估计
- 运动补偿:根据估计得到的运动位移对图像进行对齐
- 基于块的运动估计
- 将视频的每一帧分成许多互不重叠的宏块(16*16 像素图像块)
- 对每个宏块到参考帧某一给定特定搜索范围内根据一定的匹配准则找出与当前块最相似的块,即匹配块
- 匹配块与当前块的相对位移即为运动矢量,和残差数据均要写入压缩流
- 运动估计全搜索算法
- 最简单、最原始,能得到全局最优结果,但计算量非常大
- 运动估计快速算法
- 三步搜索法
- 计算量小,近似全局最优
-
运动估计的目的
- 引入运动估计,就是为了减少帧间预测编码残差图像所包含的信息量, 进而达到数据压缩的目的
- 单元块大小越小,算法量基本不变,但运动矢量会变多
- 一个块中有不同的运动趋势,自适应分块
-
视频预测编码
-
帧间/帧内预测编码的相同点
- 编码端:原始值-预测值=差值
- 解码端:差值+预测值=原始值
-
帧间/帧内预测编码的不同点
- 帧间预测:预测值是时间上相邻的图像像素值,去除的是时间冗余
帧内预测:预测值是空间上相邻的图像像素值,去除的是空间冗余
- 帧间预测:需进行运动估计得到运动矢量
帧内预测:不需进行运动估计
-
静止图像的二维预测编码
-
三邻域预测法
-
预测的方向与图像的纹理有关
-
视频帧类型
-
帧间预测编码与帧类型
- I 帧:不能进行帧间预测,只能进行帧内预测,基本选项
- P 帧:可以进行前向帧间预测,基本选项
- B 帧:可以进行双向帧间预测,高级选项
- 第一帧类型为 I 帧,其他帧类型由人工设置参数决定
- 视频帧大小比较
- I 帧:不能去除时间冗余,只能去除空间冗余
- P 帧:可以去除时间冗余
- 一般情况:视频帧的时间冗余多于空间冗余,I 帧数据量大于 P 帧
- 特殊情况:视频帧的时间和空间冗余均较多,I 帧 P 帧数据量均较少
-
视频第一帧不应全部为 P 帧
- 视频跳转播放
- 终止误码传播
-
视频宏块类型
-
视频宏块类型
- Intra 宏块:进行帧内预测的 16*16 像素图像块
- Inter 宏块:进行帧间预测的 16*16 像素图像块
-
帧类型与宏块类型的关系
- I 帧:所有宏块均为 Intra 宏块,不能进行帧间预测,只能进行帧内预测
- P 帧:宏块可以为 Inter 宏块,进行帧间预测,也可以为 Intra 宏块,进行帧内预测
-
P 帧中宏块是 Intra 宏块的情况
-
当前帧出现了前一帧未出现的新目标,新目标与前一帧没有时间相关性(出现新目标)
-
目标连续,但当前帧中目标运动太过剧烈,目标与前一帧时间相关性太弱(运动太剧烈)
-
当前帧内容自身过于简单相似,空间相关性太强(空间相关性强)
-
时间相关性越强,时间冗余越多,就应该 Inter 宏块类型
空间相关性越强,空间冗余越多,就应该 Intra 宏块类型
-
3.2 变换编码¶
- 频率冗余
- 空间域:能量倾向于均匀地分布
- 频率域:能量集中到少数几个“重要”的数据上
- 傅里叶变换
- 函数表示为不同频率的正弦或余弦的加权和的形式
- 变换编码
- 能够实现对能量的压缩,将能量集中到少数几个“重要”的数据上
- 低频(基本信息)权重系数大
- 高频(细节信息)权重系数小
- 变换的基本单元:8×8 像素块
3.3 量化编码¶
- 视觉冗余
- 视觉系统是非均匀和非线性的,对不同的变化感知程度不同
- 对低频信息(基本信息)感知程度较强
- 对高频信息(细节信息)感知程度较弱
- 量化编码
- 去掉高频信息,保留低频信息
- 编码端:原始值 / 量化步长 = 量化值
- 解码端:量化值 X 量化步长 = 重建值
-
加大量化步长,可以降低码率
-
基于 DCT 变换的分块量化导致失真
- 块效应:变换编码是一种块结构编码方法,易出现块与块间的不连续性。
- 蚊式噪声:看起来像某种围绕物体与背景之间高频分界(在前景物体与背景 之间形成的尖锐跳变)的朦胧的东西或闪光体。
3.4 视频压缩流程¶
-
编码器
-
缓存中“参考帧”。
-
进行运动估计
-
进行运动补偿计算
-
当前帧和运动补偿参考帧进行差值运算得到运动补偿的帧差图像。
-
对帧差图像进行 DCT 变换和量化。
-
量化后的系数和运动矢量进行熵编码和传输。
-
量化后的系数同时被解码,得到的帧差图像和运动补偿参考帧进行加法运算,从而得到一个新的放在缓存中的参考帧。
-
正量化与熵编码之间:“之”字型扫描和行程编码。
使变换系数所代表的频率分量由高到低排列,增加连零的个数,提高变字长行程编码效率。
-
解码器
-
对运动矢量和系数进行解码
- 进行反量化和反变换,得到帧差图像
- 由缓存中的参考帧通过运动矢量进行运动补偿计算, 得到运动补偿参考帧
- 帧差图像和运动补偿参考帧进行加法运算,得到当前帧图像
-
当前帧图像放入缓存中,作为新的参考帧
-
视频码流结构
4 视频图像编码标准¶
- JPEG 标准
- MPEG-1 编码
- MPEG-4 编码
第三章 语音音频压缩¶
1 语音音频基础知识¶
1.1 声波¶
1.2 语音¶
- 浊音
声道打开,声带绷紧,气流经过使声带发生较低频率的张弛振荡,形成浊音,发浊音时声带发生振动, 因此浊音有周期性。
- 清音
声带不振动,而声道在某处保持收缩,气流在声道里收缩后高速通过 产生湍流,再经过主声道(咽、口腔)的调整最终形成清音,清音没有周期性
-
语音短时平稳性
-
语音信号分析帧
1.3 声音感知¶
- 人耳可以听到的声音的频率范围
- 频率—位置的映射
- 人耳对声音的频谱分析
- 耳蜗内侧部位对低频敏感,外侧对高频敏感
- 等响曲线、闻域曲线
- 听觉掩蔽
- 频域掩蔽
- 时域掩蔽(前向掩蔽、后向掩蔽)
2 语音音频编码方法¶
2.1 波形编码¶
-
波形编码原理
-
采样:为了避免混叠,采样频率至少为连续信号频率的两倍
-
常用波形编码技术
-
脉冲编码调制 PCM
- 非均匀量化方法
先非线性变换,再均匀量化
-
差分脉冲编码调制 DPCM
- 用前面传输的若干抽样值来预测当前要传输的样值,然后对预测的误差而不是样值进行编码、传输。在接收端再用接收的预测误差来修正当前的预测值
- 预测器是通过 n 时刻之前的 N 个重建语音样点线性组合而成
-
自适应差分脉冲编码调制 ADPCM
- 自适应预测和自适应量化
-
子带 ADPCM
- 子带 ADPCM 原理:将信号分成多个子带,对各子带采用 ADPCM 编码
2.2 参数编码¶
根据语音形成机理,着眼于构造语音生成模型,对语音特征参数进行提取和编码,力图使重建语音保持原语音的语意,而非波形。
-
语音产生数字模型
-
将清浊音判断、浊音的基音周期看做语音信号输入 e(n),增益系数 G 和时变数字滤波器系数{𝑎𝑖}看做声道滤波器参数
-
语音信号特征参数
-
清浊音判别、基音周期参数提取方法
-
线性预测原理——滤波器系数
-
线性预测声码器 LPC
-
对比
-
波形编码
力图使重建音频波形保持原语音信号的波形形状,如 PCM,质量好,码率高,16~64kbps
-
参数编码
通过对语音信号特征参数的提取和编码,力图使重建信号保持原语音的语意,波形可能有较大的差别,码率低,1.2~2.4kbps
-
混合编码
既利用了语音的生成模型,减少了传输码率,又使解码的语音产生接近原始语音的波形,以保留说话人的自然特征在 4~16kbps 上获得高质量语音编码
-
波形编码:码率高,质量好
参数编码:码率低,质量差
混合编码:码率低于波形编码,质量高于参数编码
2.3 感知编码¶
-
感知编码原理
-
利用心理声学模型,去除声音信号中人耳不能感知的 部分,采用尽可能低的数据率获得信源输出的感知无 失真表示。感知编码一般结构。
-
感知模型:也叫心理声学模型,模拟人耳听觉机制(掩蔽特性),根据信号特性来对其他模块进行指导与控制
3 语音音频编码框架¶
3.1 语音编码框架¶
-
语音信号特点 + 线性预测合成模型
-
技术:码本激励线性预测(CELP)算法
- 声道参数:LPC 参数
- ACELP:代数码本激励线性预测算法
3.2 音频编码框架¶
- 音频编码原理:源于人耳听觉感知机理,利用声音的频域掩蔽特性,去除感知不到的冗余信号
- TVC:变换域矢量编码技术
3.3 混合编码框架¶
实际场景中,信号复杂,常用伴有语音和音乐,还有环境声等
- 基本思想
指同时使用两种或两种以上的编码方法进行编码,也称为多模式编码,克服了语音编码和音频编码的弱点,并结合了各自的优势。
- 关键技术
模式切换是混合编码框架中的关键技术,解决两个问题
- 编码器选择——开环(闭环)
-
编码帧块间的无缝衔接——长短窗
-
闭环模式选择
-
原理:对待编码信号采用 ACELP 和 TVC 分别编码,然后解码,计算解码信号的信噪比,取信噪比大者作为编码模式
- 优点:闭环模式采用 SNR 值计算,模式选择准确率最好。
-
缺点:由于是分析-合成方法决策,复杂度高
-
开环模式选择
-
原理:采用信号分类算法,对待编码信号进行分类判决,若为语音信号,则采用 ACELP 编码方法;若为音乐信号,则采用 TVC 编码方法
- 优点:开环模式因避免分析-合成,可以大幅降低计算复杂度
-
缺点:相比闭环模式,准确率降低约 15%~20%
-
通过长短重叠窗进行平滑衔接
4 语音音频编码标准¶
- MPEG 中主要的语音频编码标准
- MPEG 标准——MPEG-1
- MP3 是其三种压缩层次之一
- ITU-T 标准——G.711
5 语音音频质量评价¶
-
语音频质量评价因素
-
声音质量等级标准(4 级)
- 数字激光唱盘 CD-DA 质量,其信号带宽为 20Hz~20kHz
- 调频广播 FM 质量,其信号带宽为 50Hz~15kHz
- 调幅广播 AM 质量,其信号带宽为 80Hz~7kHz
- 电话的话音质量,其信号带宽为 80Hz~3.4kHz
-
频率成分
-
对模拟音频来说,再现声音的频率成分越多,失真与干扰越小,声音保真度越高,音质也越好。
-
对数字音频来说,再现声音的频率成分越多,误码率越小,音质越好。通常用码率(存储容量)来衡量,取样频率越高,量化比特数越大。
-
-
声音类别
- 语音音质保真度主要体现在清晰、不失真、再现平面声象
- 乐音的保真度要求较高,营造空间声象主要体现在用多声道模拟立体环绕声,或虚拟双声道 3D 环绕声等方法,再现原来声源的一切声象。
-
音频信号用途不同,压缩质量标准不同
-
主观评价、客观评价
-
主观评价方法与标准
-
语音音质
- 乐音音质
-
音频音质
-
客观评价方法与标准
-
基于输入-输出的客观评价
- 基于输出的客观评价
6 空间音频编码¶
6.1 多声道编码¶
-
现代多声道系统
-
双声道立体声编码
-
和差立体声编码(M/S)
-
强度立体声编码
- 利用了人耳对高频信号(1.6kHz 以上)的频谱包络敏感而对频谱细节不敏感特性,仅限于高频段使用,对低频段使用会严重影响立体声效果
-
多声道编码
-
空间听觉特性
-
空间心理声学
-
听觉定位效应
-
单耳定位(竖直)
-
双耳定位(水平)
入射声波到达人的两耳时具有不同的差异而引起的听觉效果,主要表现在水平面内
-
-
水平定位
- 耳间时间差
- 耳间强度差(高频)
- 耳间相关性
-
垂直定位
- 与耳廓相关的信号高频(大于 5KHz)频谱线索(频响中波峰和波谷出现的位置)是人耳对声源垂直定位的依据
-
距离
-
-
空间音频编码
- 空间音频编码:将多声道信号用一个下混声道和若干描述声源空间信息的空间参数来表征,解码端通过上混和空间声场合成来重构。声道间空间参数的改变会带来声像位置的改变,因此空间参数可以用于描述音源空间信息,以及重建音源.
- 空间音频编码(Spatial Audio Coding, SAC)
6.2 三维音频系统¶
- 三维音频基本概念
- 多声道回放的三维音频系统
- 声场
- 自由声场
- 混响声场
- 经典技术
- Ambisonics
- WFS
- VBAP
- NHK 22.2
- 耳机回放的三维音频系统
- 我们将声源 S 到达双耳的过程看做一个滤波的过程,若知道滤波器我们就可以虚拟合成出该空间位置的声音,用耳机播放出来即可
- 头相关传输函数(HRTF)
- HRTF 个性化生成技术
- 客观评估
- 主观评价
第四章 多媒体通信与流媒体¶
1 多媒体通信¶
1.1 多媒体通信技术¶
- 多媒体通信相关技术
- 概述
- 网络技术
- 压缩技术
- 终端技术
- 同步技术
- 第五代移动通信
- 可伸缩视频编码
- 可伸缩视频编码(Scalable Video Coding, SVC)是视频编码的一种,该技术把视频信号编码成分层的形式,当带宽不足时只对基本层的码流进行传输和解码,但这时解码的视频质量不高。当带宽慢慢变大时,可以传输和解码增强层的码流来提高视频的解码质量。
- 质量域可伸缩
- 多维度可伸缩编码
- 注意力编码
- 分布式视频编码
- 编码简单,解码较复杂
- 适用于计算能力、内存容量、耗电量受限的无线视频终 端(如无线视频监控系统、视频传感器网络等)。
- 帧内编码-帧间解码系统
- 视频容错
- 编码端容错技术——帧内刷新
- 编码端容错技术——分片
- 编码端容错技术——可伸缩编码+非平等保护
- 编码端容错技术——多描述编码
- 解码端容错技术——错误掩盖
- 编解码协同的容错技术——FMO+错误掩盖
- 语音通信
- 语音通信过程
- 远端的说话阶段、近端的听音阶段
- 解决方案:语音增强技术、近端听音增强技术
- 语音增强
- 是指当语音信号被各种各样的噪声干扰、甚至淹没后,从噪声背景中提取有用的语音信号
- 频谱相减法
- 自适应滤波法
- 基于神经网络的语音增强
- 近端听音增强
- 当接听者处于嘈杂环境中,即使通信设备输出清晰的语音信号,语音信号仍旧会被环境噪音干扰甚至淹没,通过对原始语音的修改,使其具有更高的人耳清晰度,该技术称为近端听音增强(Near-End Listening Enhancement,NELE)或语音清晰度增强(Speech Intelligibility Enhancement, IENH)
- 噪声抵消策略
- 语音特性修正策略
- 基于神经网络的全方位调整
1.2 多媒体通信系统¶
- IP 网络电话(VoIP)
- 优缺点
- 质量影响因素
- 压缩算法
- 语音活动检测
- 活动语音检测主要用于检测输入信号是话音还是背景噪音。
- 舒适噪声生成(CNG: Comfortable Noise Generation):主要用于接收方重建背景噪声。
- 回声
- 回声抑制器
- 回声消除器
- 语音延时
- 丢失分组语音包
- 抖动
- 可视电话系统
-
软件实现
- 主控模块
- 协议处理模块
- 视频数据处理模块
- 音频数据处理模块
- 复用/解复用模块
- 通讯处理模块
- 用户接口模块
-
影响因素
- 带宽
- 视频数据压缩
-
视频会议系统
- H.323 协议概述
2 流媒体技术¶
2.1 流媒体技术原理¶
- 流式传输方法
- 顺序流
- 定义:顺序下载,在下载文件的同时用户可观看再线媒体,在给定时刻,用户只能观看已下载的那部分,不能跳到还未下载的前头部分
- 优点:标准的 HTTP 服务器可发送文件,不需要其他特殊协议;比较合适高质量的片段,这种方法保证电影播放的最终质量
- 缺点:本质上是一种点播,用户在观看前,必须经历延时,对比较慢的连接尤其如此
- 实时流
- 定义:一般说来,如视频为实时广播,或使用流传输媒体服务器,或应用如 RTSP 的实时协议,即为实时流传输
- 优点:实时流传输保证媒体信号带宽与网络连接匹配,使媒体可被实时观看到,适合视频直播
- 缺点:实时流传输与顺序流传输不同,需要专用的流媒体服务器与传输协议;必须匹配连接带宽,网络拥挤或出现问题时,视频质量很差
- 流式传输基本原理
-
流媒体播放方式
- 单播
- 组播
-
流媒体文件格式
2.2 流媒体相关协议¶
第五章 视频图像分析与检索¶
1 多媒体数据库¶
- 多媒体数据管理问题
- 多媒体数据库的一般结构形式
- 多媒体数据库的层次结构
2 视频图像检索¶
2.1 基于内容检索¶
2.2 图像检索¶
- 基于颜色特征的检索
- 基于纹理特征的检索
- 基于形状特征的检索
- 基于组合的多特征检索
- 基于语义特征的检索
- 颜色特征
- 颜色直方图
- 行人重识别
2.3 视频检索¶
- 视频检索与索引
- 视频序列
- 镜头的切换
- 直接切换
- 渐变切换
- 镜头的运动
- 视频检索常用的关键技术
- 关键帧抽取
- 镜头分割
- 非直接镜头切换(确定一个阈值)
- 渐变镜头切换(双重比较法)
- 双重比较法:是指采用两个阀值。首先用第一个较低的阀值来确定出潜在渐变切换序列的起始帧。一旦确定了这个帧,就将它与后续的帧进行比较,用得到的差值来取代帧间的差值。这个差值必须是单调的,应该不断地加大,直至这个单调的过程中止。这时,将这个差值与第二个较大的阀值进行比较,如果超过了这个阀值,就认为这个不断比较差值单调的视频序列对应的就是一个渐变切换点
- 视频结构重构
- 多媒体内容描述接口 MPEG-7
3 图像分割¶
- 基于边缘的图像分割
- 点检测
- 线检测
- 边缘检测
- 边缘连接与检测
- 基于区域的图像分割
- 阈值分割
- 聚类分割
- 基于语义的图像分割
- 基于人工交互的语义分割
- 基于图论的图像分割
- 基于样本学习的语义分割
- 基于全卷积网络 FCN 的语义分割
4 目标检测¶
-
基于模板匹配的目标检测
-
基于分类的目标检测
-
目标定位
- 滑动窗口
- 区域选择
-
目标分类
-
常见的特征:颜色特征、 纹理特征、梯度方向直方图特征、深度学习特征
-
分类器:KNN、SVM、人工神经网络
-
-
关键问题及挑战
- 遮挡
- 尺度
- 形变
- 低光照
-
基于语义的目标检测
-
视觉词组
5 目标跟踪¶
目标跟踪是指从一段连续的图像序列或视频中估计出感兴趣目标的运动状态和运动轨迹
- 经典跟踪算法
- Meanshift 算法
- 相关滤波跟踪
- 相机移动、变焦等
- 背景复杂
6 视频行为识别¶
- 活动分类
- 面临的挑战
- 人物位置,尺度的变化
- 同类活动差异大
- 相机移动、变焦等
- 背景复杂
- Bag of Word
-
HOG 特征表达
-
卷积神经网络
- 基于深度网络的行为识别
题型¶
分值组成:八个简答(40)三个计算(30)三个简述(30)
简答题¶
-
多媒体数字化的两个主要环节
-
视频压缩采用的色彩模型并解释原因
-
视频压缩中变换编码的基本思想
基本思想+如何实现压缩
-
多媒体数据压缩的性能评价指标
-
简答 ADPCM 的基本思想
-
波形、参数、感知三种编码技术的优缺点
-
流式传输的原理
- 多媒体数据库的层次结构
计算题¶
-
哈夫曼编码
-
LZW 字典编码
- 算术编码
简述题¶
- 视频编码器的基本框架
- JPEG 编码的基本过程
- 语音编码非均匀量化
- 可视电话软件实现的基本过程
- 深度学习在多媒体技术领域的应用及其面临的挑战
- 可解释性差
- 泛化能力差
- 负面影响
-
多媒体技术在数字安防领域的主要应用
-
跨媒体应用
总结¶
人眼的视觉特性在视频图像压缩中的运用¶
- YUV
- 人类视觉系统(HVS)对亮度比对彩色敏感
- 量化编码
- 人眼对高频表示的细节部分敏感度不如低频高
- 帧率
- 25 帧左右的视频就可以形成连续的视频了
- 块效应滤波(??)
- 假纹理
- 水波、草地等纹理可以自动生成,人眼的区分能力不足
- 视觉关注度
- ROI 编码。人眼的关注范围有限,对不重要的目标可以增大压缩率。
- 降低量化级数
- 人眼对量化级数(颜色数)的变化不敏感
人的发声特性和听觉特性在语音音频压缩中的运用¶
- 发声特性
- 清浊音的周期特性不同,浊音有周期性,清音没有
- 语音短时平稳性
- 人在说话时,声道形状会随口腔肌肉运动而进行相应变化,肌肉运动频率相对于语音变化频率而言要相对缓慢,在一个短时间间隔(20~40ms)内,可以认为声道及其输入是近似平稳的
- 语音信号分析帧:假设语音信号短时平稳,为便于语音信号处理,会将语音信号进行分帧处理,语音信号的处理帧长为 20ms
- 听觉特性
- 人耳的频率—位置的映射
- 子带 ADPCM
- 闻域曲线
- 感知编码
- 听觉掩蔽
- 感知编码
- 语音特性修正策略
哈夫曼编码的写法¶
算术编码的写法¶
视频冗余和压缩方法¶
- 视频压缩的基本依据
- 空间冗余
- 频率冗余
- 视觉冗余
- 熵冗余
-
时间冗余
-
视频压缩的基本方法
- 帧内预测编码
- 变换编码
- 量化编码
- 熵编码
- 帧间预测编码