Representation Learning 表示学习（简单笔记）

最新推荐文章于 2025-03-31 16:56:18 发布

c_0934

最新推荐文章于 2025-03-31 16:56:18 发布

阅读量2k

点赞数

CC 4.0 BY-SA版权

分类专栏：深度学习（DeepLearning）文章标签： python

本文链接：https://blog.youkuaiyun.com/c_0934/article/details/124410633

深度学习（DeepLearning）专栏收录该内容

5 篇文章

订阅专栏

表示学习是机器学习中的一种重要方法，旨在通过自动学习有效特征来弥合底层数据特征与高层语义信息之间的语义鸿沟。这一过程涉及两个核心问题：寻找好的表示和学习表示的方法。局部表示如one-hot编码虽然具有解释性，但高维和稀疏性带来挑战。分布式表示，如embedding，能更好地捕捉数据的高层语义，常通过深层结构的非线性转换来学习。深度学习通过多层次特征表示增强了模型的表达能力。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

tips:作为知识漏洞，自己记录下笔记！

表示：为了提高机器学习系统的准确率，我们就需要将输入信息转换为有效的特征。

表示学习：如果有一种算法可以自动地学习出有效的特征，并提高最终机器学习模型的性能，那么这种学习就可以叫作表示学习（Representation Learning）．

（1）表示学习的关键是解决语义鸿沟（Semantic Gap）问题．语义鸿沟问题是指输入数据的底层特征和高层语义信息之间的不一致性和差异性．

比如：

给定一些关于“车”的图片，由于图片中每辆车的颜色和形状等属性都不尽相同，因此不同图片在像素级别上的表示（即底层特征）差异性也会非常大．但是我们理解这些图片是建立在比较抽象的高层语义概念上的．如果一个预测模型直接建立在底层特征之上，会导致对预测模型的能力要求过高．如果可以有一个好的表示在某种程度上能够反映出数据的高层语义特征，那么我们就能相对容易地构建后续的机器学习模型．

（2）在表示学习中，有两个核心问题：一是“什么是一个好的表示”；二是“如何学习到好的表示”．

局部表示有两个优点：1）这种离散的表示方式具有很好的解释性，有利于人工归纳和总结特征，并通过特征组合进行高效的特征工程；2）通过多种特征组合得到的表示向量通常是稀疏的二值向量，当用于线性模型时计算效率非常高．但局部表示有两个不足之处：1）one-hot向量的维数很高，且不能扩展．如果有一种新的颜色，我们就需要增加一维来表示；2）不同颜色之间的相似度都为0，即我们无法知道“红色”和“中国红”的相似度要高于“红色”和“黑色”的相似度．