什么是Embedding？用来干什么？（通俗易懂版）

问老大

已于 2024-08-21 13:46:17 修改

阅读量601

点赞数 3

文章标签： embedding 推荐模型

于 2024-08-07 11:39:16 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/m0_59704905/article/details/140987619

版权

Embedding （向量化）——离散实例映射到连续的数值向量中。

简单来说，Embedding 是一种把一些难以处理的离散对象（比如文字、图片、声音等）转化为计算机容易理解的形式——数值向量，便于数学运算和机器学习模型的处理的技术。数值向量通常具有一定的维度，每个维度上的值代表了对象的某个特性或属性，通过数值向量，计算机能够捕捉到离散对象之间的相似性、关联性以及其他内在的关系，进而便于计算机理解它们的意义，比如苹果和梨的数值向量比较接近，但是苹果和狗的数值向量就差的比较多，进而便于计算机处理和使用这些数据。这种转换有助于机器学习和深度学习算法更好地捕捉数据中的关系。

Embedding 技术就像是给计算机提供了一种语言，让它能够理解人类世界里的事物。通过将信息转化为向量，计算机就可以更好地处理和理解这些信息，从而完成各种任务，如搜索、推荐、翻译等。

特点：

降维：高维稀疏对象———>低维稠密向量，减少数据的维度，从而简化计算和提高效率。
散对象映射到连续离向量空间：Embedding 将每个离散的对象映射到一个连续的数值向量中，使得机器学习模型可以更容易地处理这些数据。
捕捉对象之间的关系：好的 Embedding 方法能够捕捉到对象之间的关系，比如相似性、语义关系、上下文信息等。

真正有意义的是这些向量（Embedding）之间的相对位置和它们之间的关系，而不是具体的向量值本身。两个向量之间的距离或相似度通常反映了它们所代表的对象之间的相似性。捕捉潜在关系，计算机通过得知对象之间的相似度来理解对象的意义。

Embedding 技术广泛应用于自然语言处理（NLP）——情感分析、机器翻译、问答系统、计算机视觉——图像检索、对象识别、推荐系统——基于用户行为和项目特征的相似性

Embedding是通过在大型数据集上训练模型来学习的，而不是由人类专家明确定义。这使得模型能够学习数据中人类难以或不可能识别的复杂模式和关系。

Embedding技术在推荐系统中的作用：

（1）在深度学习网络中作为Embedding层，完成从高维稀疏特征向量到低维稠密特征向量的转换。

（2）作为预训练的Embedding特征向量，与其他特征向量连接后，一同输入深度学习网络进行训练。

（3）通过计算用户和物品的Embedding相似度，Embedding可以直接作为推荐系统的召回层或者召回策略之一，通过计算物品和物品的Embedding相似度，得到物品的相似推荐。

深度学习的结构特点不利于稀疏特征向量的处理：

稀疏特征向量通常具有很高的维度，即使大多数维度上的值为零，增加了模型的学习难度。

博客等级

码龄4年

89
原创

867
点赞

758
收藏

699
粉丝

关注

私信

热门文章

上一篇：: 为什么深度学习的结构特点不利于稀疏特征向量的处理？

下一篇：: Embedding技术之Word Embedding

最新评论

MaxKB本地部署celery_default is stopped
北风之神c: 总结的很全面，写得赞，博主用心了。 celery对目录层级文件名称格式要求太高，只适合规划新的项目，对不规则文件夹套用难度高。所以新手使用celery很仔细的建立文件夹名字、文件夹层级、python文件名字。所以网上的celery博客教程虽然很多，但是并不能学会使用，因为要运行起来需要以下6个方面都掌握好，博客文字很难表达清楚或者没有写全面以下6个方面。 celery消费任务不执行或者报错NotRegistered，与很多方面有关系，如果要别人排错，至少要发以下6方面的截图，因为与一下6点关系很大。 1)整个项目目录结构, 2）@task入参 ,3）celery的配置，4）celery的配置 include ,5）cmd命令行启动参数 --queues= 的值,6）用户在启动cmd命令行时候，用户所在的文件夹。在不规范的文件夹路径下，使用celery难度很高，一般教程都没教。 [项目文件夹目录格式不规范下的celery使用演示](https://github.com/ydf0509/celery_demo) 。此国产分布式函数调度框架 funboost python万能通用函数加速器 https://funboost.readthedocs.io/zh-cn/latest/articles/c1.html ，从用法调用难度，用户所需代码量，超高并发性能，qps控频精确程度，支持的中间件类型，任务控制方式，稳定程度等20个方面全方位超过celery。发布性能提高1000%，消费性能提高2000%。 python万能分布式函数调度框架funboost支持python所有类型的并发模式和一切知名消息队列中间件，python函数加速器，只需要一行代码调度任意函数，框架包罗万象,万能编程功能宝典，一统编程思维，与业务不绑定，适用范围广。 pip install funboost
微信小程序之实现弹窗组件及点击弹窗按钮实现页面跳转
langboy126: 咨询下，弹窗中是否可以增加协议预览呢？
MySQL学习4之备份策略、缓存机制、日志刷新策略、EXPLAIN命令
檀越@新空间: 博主的文章是我每次学习的指南🎈🎈🎈，总是解答了我遇到的问题。支持博主优质文章，讲解得非常详细🎉 🎉 🎉，干货满满，通俗易懂，期待博主下次更新😁😁😁。感谢博主的付出，期待更多的精彩内容！
深度学习碎碎念——碎片知识1
征途黯然.: 我对这篇关于深度学习碎碎念碎片知识1的文章印象深刻！通过这篇文章，我更深入地了解了。感谢！
微信小程序开发之数据绑定
qq_37376469: 很有用！！谢大佬

大家在看

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。