机器学习中的数据嵌入与词嵌入技术
1. 数据嵌入的概念与应用
在日常生活中,我们所遇到的事物可以用无数的属性来描述。以恐怖电影为例,不同的人可能有不同的描述:
- 有人认为恐怖电影是有血腥场面的砍杀电影,即 horror = killer + blood + gore ;
- 有人会想到僵尸或吸血鬼电影,即 horror = creepy + zombies + vampires ;
- 还有人会想到幽灵故事和鬼屋,即 horror = spooky + ghosts + haunted 。
如果将这些定义编程到计算机中,计算机可以用更广泛的“恐怖”概念进行预测。但当用户发布如 “I just love a good scary movie!” 或 “The Halloween season is my favorite time of year!” 这样的文本时,算法可能无法将其与之前定义的恐怖概念关联起来。
嵌入(embedding)是一种数学概念,指用较少的维度表示高维向量。在机器学习中,嵌入的构建使得高维空间中相关的维度在低维空间中更接近。如果嵌入构建得好,低维空间可以保留高维的语义,并且可用于分类任务。
人类很擅长构建概念的低维表示,比如给电影分类为喜剧、科幻或恐怖,给音乐分类为嘻哈、流行或摇滚等。机器学习中的聚类算法可以模仿人类的这种标签分类过程,但对于非结构化数据,如电影的文本描述,聚类可能不太适用。
学习算法可以通过上下文构建嵌入。例如,好莱坞的数千部电影可以相互关联,即使不研究《万圣节》和《活死人之夜》具
词嵌入技术及其应用详解
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



