多媒体表示、描述、编码以及通信的相关规定和标准课程总结

本文详细介绍了音视频编解码标准,如MPEG系列和H.264,以及图像处理中的关键概念,如SIFT算法。探讨了3GPP和ITU在移动通信标准中的角色,并对比了不同编解码技术的特点。
  • 时间:2016.10.11-2016. 11.3
  • 注意关注会议

机构

  • ITU(国际电信联盟)

  • MPEG: Moving Picture Experts Group,动态图像专家组, 是ISO(International Standardization Organization,国际标准化组织)与IEC(International Electrotechnical Commission,国际电工委员会)于1988年成立的专门针对运动图像和语音压缩制定国际标准的组织。每年举办三次会议。

  • 3GPP: 3GPP的目标是实现由2G网络到3G网络的平滑过渡,保证未来技术的后向兼容性,支持轻松建网及系统间的漫游和兼容性。 其职能: 3GPP主要是制订以GSM核心网为基础,UTRA(FDD为W-CDMA技术,TDD为TD-CDMA技术)为无线接口的第三代技术规范。

标准

MPEG标准:

  • MPEG-1/1993:11172,VCD
  • MPEG-2/1995:13818,DVD
  • MPEG-4/1999:.mp4格式的视频,目前仍在使用
  • MPEG-4 AAC/2003 /H.264
  • MPEG-7/2001:15938,检索标准,较老了
  • HEVC(2013)/H.265
  • MPEG-21

Dolby AC3标准

AVS标准

两种向量差值的表示:

  • 欧氏距离:|F1-F2|^2; 欧几里得度量(euclidean metric)(也称欧氏距离)是一个通常采用的距离定义,指在m维空间中两个点之间的真实距离,或者向量的自然长度(即该点到原点的距离)。在二维和三维空间中的欧氏距离就是两点之间的实际距离。

  • 马氏距离: 马氏距离(Mahalanobis distance)是由印度统计学家马哈拉诺比斯(P. C. Mahalanobis)提出的,表示数据的协方差距离。它是一种有效的计算两个未知样本集的相似度的方法。与欧氏距离不同的是它考虑到各种特性之间的联系(例如:一条关于身高的信息会带来一条关于体重的信息,因为两者是有关联的)并且是尺度无关的(scale-invariant),即独立于测量尺度。对于一个均值为μ,协方差矩阵为Σ的多变量向量,其马氏距离为(x-μ)’Σ^(-1)(x-μ)。

JPEG2000 图像检索

问题:描述、匹配、视角问题、手机搜索

拍照过程(信息有损失):

  • 3D——>2D;

  • 成像输入——>摄像头——>去噪——>对应RGB不同的通道对图像采样——>DSP处理——>输出

描述:

Globle Feature:
  • 颜色
  • 结构
  • 轮廓
Local Feature :
  • keypoint(特征点、关键点)
  • Interesting content
  • precise localization
  • repeatable detection under variations of scale rotation(旋转、尺度等变换可重复检测)

SIFT

SIFT概念:

  • 尺度不变特征变换(Scale-invariant feature transform,SIFT),是用于图像处理领域的一种描述。

  • 这种描述具有尺度不变性,可在图像中检测出关键点,是一种局部特征描述子。

    • keypoint(特征点、关键点)
    • Interesting content
    • precise localization
    • repeatable detection under variations of scale rotation(旋转、尺度等变换可重复检测)
  • 该方法于1999年由David Lowe首先发表于计算机视觉国际会议(International Conference on Computer Vision,ICCV),2004年再次经David Lowe整理完善后发表于International journal of computer vision(IJCV)。截止2014年8月,该论文单篇被引次数达25000余次。

SIFT实现方法:

  • 金字塔形状分解(pyramids);逐级检测

  • 尺度空间(scale space);DOG method

仿射(Affin Transform, AT)

包括:旋转、倾斜、平移、缩放

第二课

MPEG-1

  • CD11172-1,音频(A、B、C、D、E、F、G)

  • 帧同步:CD11172-2,视频。

  • 注意:encoder issue编码器问题,只要编码后的码流符合标准即可,对编解码器并没有规定,其中涉及优化问题。

MPEG-1 :13818(视频标准)

帧内编码:

audio(听觉)
  • Bn=20KHZ,Fs=44.1KHZ,或是48KHZ Bps=16bit
voice(语音)
  • Bn=3.4KHZ->4KHZ ,Fs=8KHZ Bps=8bit

MPEG Audio

  • Audio layout2 ——MP2:时域上编码

  • Audio layout3 ——MP2:滤波器组,切割成32个子带

  • AAC MP3有更大的采样率:8-96KHZ,更大的比特数和更长的帧长

编码器

  • CELP:较有名的编码器, 基于模型的编码
  • MIDI

三基色:RGB

  • 16777216种颜色

  • 4096/2048 量化,取最大值

描述图像,用于检索的指标有

  • PBC
  • SRC
  • Edge histogram
    注意:旋转不变性,解决的是角度问题。
根据原作 https://pan.quark.cn/s/459657bcfd45 的源码改编 Classic-ML-Methods-Algo 引言 建立这个项目,是为了梳理总结传统机器学习(Machine Learning)方法(methods)或者算法(algo),各位同仁相互学习交流. 现在的深度学习本质上来自于传统的神经网络模型,很大程度上是传统机器学习的延续,同时也在不少时候需要结合传统方法来实现. 任何机器学习方法基本的流程结构都是通用的;使用的评价方法也基本通用;使用的一些数学知识也是通用的. 本文在梳理传统机器学习方法算法的同时也会顺便补充这些流程,数学上的知识以供参考. 机器学习 机器学习是人工智能(Artificial Intelligence)的一个分支,也是实现人工智能最重要的手段.区别于传统的基于规则(rule-based)的算法,机器学习可以从数据中获取知识,从而实现规定的任务[Ian Goodfellow and Yoshua Bengio and Aaron Courville的Deep Learning].这些知识可以分为四种: 总结(summarization) 预测(prediction) 估计(estimation) 假想验证(hypothesis testing) 机器学习主要关心的是预测[Varian在Big Data : New Tricks for Econometrics],预测的可以是连续性的输出变量,分类,聚类或者物品之间的有趣关联. 机器学习分类 根据数据配置(setting,是否有标签,可以是连续的也可以是离散的)任务目标,我们可以将机器学习方法分为四种: 无监督(unsupervised) 训练数据没有给定...
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

flybirding10011

谢谢支持啊999

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值