多媒体表示、描述、编码以及通信的相关规定和标准课程总结

最新推荐文章于 2023-06-02 00:28:33 发布

原创最新推荐文章于 2023-06-02 00:28:33 发布 · 145 阅读

·

0

·

CC 4.0 BY-SA版权

版权所有©️都是我自己写哒！

本文详细介绍了音视频编解码标准，如MPEG系列和H.264，以及图像处理中的关键概念，如SIFT算法。探讨了3GPP和ITU在移动通信标准中的角色，并对比了不同编解码技术的特点。

时间：2016.10.11-2016. 11.3
注意关注会议

机构

ITU（国际电信联盟）
MPEG： Moving Picture Experts Group，动态图像专家组, 是ISO（International Standardization Organization，国际标准化组织）与IEC（International Electrotechnical Commission，国际电工委员会）于1988年成立的专门针对运动图像和语音压缩制定国际标准的组织。每年举办三次会议。
3GPP： 3GPP的目标是实现由2G网络到3G网络的平滑过渡，保证未来技术的后向兼容性，支持轻松建网及系统间的漫游和兼容性。其职能： 3GPP主要是制订以GSM核心网为基础，UTRA(FDD为W-CDMA技术，TDD为TD-CDMA技术)为无线接口的第三代技术规范。

标准

MPEG标准：

MPEG-1/1993：11172，VCD
MPEG-2/1995：13818，DVD
MPEG-4/1999：.mp4格式的视频，目前仍在使用
MPEG-4 AAC/2003 /H.264
MPEG-7/2001：15938，检索标准，较老了
HEVC（2013）/H.265
MPEG-21

Dolby AC3标准

AVS标准

两种向量差值的表示：

欧氏距离：|F1-F2|^2；欧几里得度量（euclidean metric）（也称欧氏距离）是一个通常采用的距离定义，指在m维空间中两个点之间的真实距离，或者向量的自然长度（即该点到原点的距离）。在二维和三维空间中的欧氏距离就是两点之间的实际距离。
马氏距离：马氏距离(Mahalanobis distance)是由印度统计学家马哈拉诺比斯(P. C. Mahalanobis)提出的，表示数据的协方差距离。它是一种有效的计算两个未知样本集的相似度的方法。与欧氏距离不同的是它考虑到各种特性之间的联系（例如：一条关于身高的信息会带来一条关于体重的信息，因为两者是有关联的）并且是尺度无关的(scale-invariant)，即独立于测量尺度。对于一个均值为μ，协方差矩阵为Σ的多变量向量，其马氏距离为(x-μ)’Σ^(-1)(x-μ)。

JPEG2000 图像检索

问题：描述、匹配、视角问题、手机搜索

拍照过程（信息有损失）：

3D——>2D；
成像输入——>摄像头——>去噪——>对应RGB不同的通道对图像采样——>DSP处理——>输出

描述：

Globle Feature：

颜色
结构
轮廓

Local Feature ：

keypoint（特征点、关键点）
Interesting content
precise localization
repeatable detection under variations of scale rotation（旋转、尺度等变换可重复检测）

SIFT

SIFT概念：

尺度不变特征变换（Scale-invariant feature transform，SIFT），是用于图像处理领域的一种描述。
这种描述具有尺度不变性，可在图像中检测出关键点，是一种局部特征描述子。
- keypoint（特征点、关键点）
- Interesting content
- precise localization
- repeatable detection under variations of scale rotation（旋转、尺度等变换可重复检测）
该方法于1999年由David Lowe首先发表于计算机视觉国际会议（International Conference on Computer Vision，ICCV），2004年再次经David Lowe整理完善后发表于International journal of computer vision（IJCV）。截止2014年8月，该论文单篇被引次数达25000余次。

SIFT实现方法：

金字塔形状分解（pyramids）；逐级检测
尺度空间（scale space）;DOG method

仿射（Affin Transform, AT）

包括：旋转、倾斜、平移、缩放

第二课

MPEG-1

CD11172-1，音频（A、B、C、D、E、F、G）
帧同步：CD11172-2，视频。
注意：encoder issue编码器问题，只要编码后的码流符合标准即可，对编解码器并没有规定，其中涉及优化问题。

MPEG-1 ：13818（视频标准）

帧内编码：

audio（听觉）

Bn=20KHZ，Fs=44.1KHZ，或是48KHZ Bps=16bit

voice（语音）

Bn=3.4KHZ->4KHZ ，Fs=8KHZ Bps=8bit

MPEG Audio

Audio layout2 ——MP2：时域上编码
Audio layout3 ——MP2：滤波器组，切割成32个子带
AAC MP3有更大的采样率：8-96KHZ，更大的比特数和更长的帧长

编码器

CELP：较有名的编码器，基于模型的编码
MIDI

三基色：RGB

16777216种颜色
4096/2048 量化，取最大值

描述图像，用于检索的指标有

PBC
SRC
Edge histogram
注意：旋转不变性，解决的是角度问题。

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

flybirding10011 谢谢支持啊999

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。