60、机器学习中的数据嵌入与词嵌入技术

词嵌入技术及其应用详解

机器学习中的数据嵌入与词嵌入技术

1. 数据嵌入的概念与应用

在日常生活中,我们所遇到的事物可以用无数的属性来描述。以恐怖电影为例,不同的人可能有不同的描述:
- 有人认为恐怖电影是有血腥场面的砍杀电影,即 horror = killer + blood + gore
- 有人会想到僵尸或吸血鬼电影,即 horror = creepy + zombies + vampires
- 还有人会想到幽灵故事和鬼屋,即 horror = spooky + ghosts + haunted

如果将这些定义编程到计算机中,计算机可以用更广泛的“恐怖”概念进行预测。但当用户发布如 “I just love a good scary movie!” 或 “The Halloween season is my favorite time of year!” 这样的文本时,算法可能无法将其与之前定义的恐怖概念关联起来。

嵌入(embedding)是一种数学概念,指用较少的维度表示高维向量。在机器学习中,嵌入的构建使得高维空间中相关的维度在低维空间中更接近。如果嵌入构建得好,低维空间可以保留高维的语义,并且可用于分类任务。

人类很擅长构建概念的低维表示,比如给电影分类为喜剧、科幻或恐怖,给音乐分类为嘻哈、流行或摇滚等。机器学习中的聚类算法可以模仿人类的这种标签分类过程,但对于非结构化数据,如电影的文本描述,聚类可能不太适用。

学习算法可以通过上下文构建嵌入。例如,好莱坞的数千部电影可以相互关联,即使不研究《万圣节》和《活死人之夜》具

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值