- 时间:2016.10.11-2016. 11.3
- 注意关注会议
机构
ITU(国际电信联盟)
MPEG: Moving Picture Experts Group,动态图像专家组, 是ISO(International Standardization Organization,国际标准化组织)与IEC(International Electrotechnical Commission,国际电工委员会)于1988年成立的专门针对运动图像和语音压缩制定国际标准的组织。每年举办三次会议。
3GPP: 3GPP的目标是实现由2G网络到3G网络的平滑过渡,保证未来技术的后向兼容性,支持轻松建网及系统间的漫游和兼容性。 其职能: 3GPP主要是制订以GSM核心网为基础,UTRA(FDD为W-CDMA技术,TDD为TD-CDMA技术)为无线接口的第三代技术规范。
标准
MPEG标准:
- MPEG-1/1993:11172,VCD
- MPEG-2/1995:13818,DVD
- MPEG-4/1999:.mp4格式的视频,目前仍在使用
- MPEG-4 AAC/2003 /H.264
- MPEG-7/2001:15938,检索标准,较老了
- HEVC(2013)/H.265
- MPEG-21
Dolby AC3标准
AVS标准
两种向量差值的表示:
欧氏距离:|F1-F2|^2; 欧几里得度量(euclidean metric)(也称欧氏距离)是一个通常采用的距离定义,指在m维空间中两个点之间的真实距离,或者向量的自然长度(即该点到原点的距离)。在二维和三维空间中的欧氏距离就是两点之间的实际距离。
马氏距离: 马氏距离(Mahalanobis distance)是由印度统计学家马哈拉诺比斯(P. C. Mahalanobis)提出的,表示数据的协方差距离。它是一种有效的计算两个未知样本集的相似度的方法。与欧氏距离不同的是它考虑到各种特性之间的联系(例如:一条关于身高的信息会带来一条关于体重的信息,因为两者是有关联的)并且是尺度无关的(scale-invariant),即独立于测量尺度。对于一个均值为μ,协方差矩阵为Σ的多变量向量,其马氏距离为(x-μ)’Σ^(-1)(x-μ)。
JPEG2000 图像检索
问题:描述、匹配、视角问题、手机搜索
拍照过程(信息有损失):
3D——>2D;
成像输入——>摄像头——>去噪——>对应RGB不同的通道对图像采样——>DSP处理——>输出
描述:
Globle Feature:
- 颜色
- 结构
- 轮廓
Local Feature :
- keypoint(特征点、关键点)
- Interesting content
- precise localization
- repeatable detection under variations of scale rotation(旋转、尺度等变换可重复检测)
SIFT
SIFT概念:
尺度不变特征变换(Scale-invariant feature transform,SIFT),是用于图像处理领域的一种描述。
这种描述具有尺度不变性,可在图像中检测出关键点,是一种局部特征描述子。
- keypoint(特征点、关键点)
- Interesting content
- precise localization
- repeatable detection under variations of scale rotation(旋转、尺度等变换可重复检测)
该方法于1999年由David Lowe首先发表于计算机视觉国际会议(International Conference on Computer Vision,ICCV),2004年再次经David Lowe整理完善后发表于International journal of computer vision(IJCV)。截止2014年8月,该论文单篇被引次数达25000余次。
SIFT实现方法:
金字塔形状分解(pyramids);逐级检测
尺度空间(scale space);DOG method
仿射(Affin Transform, AT)
包括:旋转、倾斜、平移、缩放
第二课
MPEG-1
CD11172-1,音频(A、B、C、D、E、F、G)
帧同步:CD11172-2,视频。
注意:encoder issue编码器问题,只要编码后的码流符合标准即可,对编解码器并没有规定,其中涉及优化问题。
MPEG-1 :13818(视频标准)
帧内编码:
audio(听觉)
- Bn=20KHZ,Fs=44.1KHZ,或是48KHZ Bps=16bit
voice(语音)
- Bn=3.4KHZ->4KHZ ,Fs=8KHZ Bps=8bit
MPEG Audio
Audio layout2 ——MP2:时域上编码
Audio layout3 ——MP2:滤波器组,切割成32个子带
AAC MP3有更大的采样率:8-96KHZ,更大的比特数和更长的帧长
编码器
- CELP:较有名的编码器, 基于模型的编码
- MIDI
三基色:RGB
16777216种颜色
4096/2048 量化,取最大值
描述图像,用于检索的指标有
- PBC
- SRC
- Edge histogram
注意:旋转不变性,解决的是角度问题。
本文详细介绍了音视频编解码标准,如MPEG系列和H.264,以及图像处理中的关键概念,如SIFT算法。探讨了3GPP和ITU在移动通信标准中的角色,并对比了不同编解码技术的特点。
2307

被折叠的 条评论
为什么被折叠?



