tips:作为知识漏洞,自己记录下笔记!
表示:为了提高机器学习系统的准确率,我们就需要将输入信息转换为有效的特征。
表示学习:如果有一种算法可以自动地学习出有效的特征,并提高最终机器学习模型的性能,那么这种学习就可以叫作表示学习(Representation Learning).
(1)表示学习的关键是解决语义鸿沟(Semantic Gap)问题.语义鸿沟问题是指输入数据的底层特征和高层语义信息之间的不一致性和差异性.
比如:
给定一些关于“车”的图片,由于图片中每辆车的颜色和形状等属性都不尽相同,因此不同图片在像素级别上的表示(即底层特征)差异性也会非常大.但是我们理解这些图片是建立在比较抽象的高层语义概念上的.如果一个预测模型直接建立在底层特征之上,会导致对预测模型的能力要求过高.如果可以有一个好的表示在某种程度上能够反映出数据的高层语义特征,那么我们就能相对容易地构建后续的机器学习模型.
(2)在表示学习中,有两个核心问题:一是“什么是一个好的表示”;二是“如何学习到好的表示”.


局部表示有两个优点:1)这种离散的表示方式具有很好的解释性,有利于人工归纳和总结特征,并通过特征组合进行高效的特征工程;2)通过多种特征组合得到的表示向量通常是稀疏的二值向量,当用于线性模型时计算效率非常高.但局部表示有两个不足之处:1)one-hot向量的维数很高,且不能扩展.如果有一种新的颜色,我们就需要增加一维来表示;2)不同颜色之间的相似度都为0,即我们无法知道“红色”和“中国红”的相似度要高于“红色”和“黑色”的相似度.


例子(embedding):
总结:要学习到一种好的高层语义表示(一般为分布式表示),通常需要从底层特征开始,经过多步非线性转换才能得到.连续多次的线性转换等价于一次线性转换.深层结构的优点是可以增加特征的重用性,从而指数级地增加表示能力.因此,表示学习的关键是构建具有一定深度的多层次特征表示。
注:( 内容来自邱锡鹏老师开源书籍《深度学习和神经网络》)