《深入浅出Embedding--原理解析与应用实践》第一章 万物皆可嵌入--读书笔记

本文介绍了词嵌入(WordEmbedding)及其在自然语言处理(NLP)、推荐系统中的应用。从整数到向量的转换,通过CBOW和Skip-gram模型,以及HierarchicalSoftmax和NegativeSampling的优化策略进行词向量学习。此外,还探讨了ItemEmbedding在序列特征场景中的运用,特别是在推荐系统中的实践,如微软推荐系统采用Item2Vec算法提升效果。

嵌入技术的应用:自然语言处理/传统的机器学习/搜索排序/推荐/知识图谱

Word Embedding 

Item Embedding

Graph Embedding

Categorical variables Embedding

单一静态---》动态

Word Embedding   ---》ELMo Transformer GPT BERT XLNet ALBERT 

1.1 处理序列问题的一般步骤

序列问题:自然语言处理、网页浏览、时间序列

如何处理序列问题?如何挖掘序列中隐含的规则和逻辑?

如何用NLP提炼出某新闻报道的语言材料的摘要信息?需要考虑哪些内容?涉及哪些步骤?先从哪一步开始?

清理工作(特殊符号、格式转换、过滤停用词)---》分词---》索引化---》模型/算法 单词、词等标识符向量化---》输出给下游任务

 词嵌入或预训练模型很重要,他们的质量好坏直接影响下游任务的效果。

1.2 Word Embedding

机器无法直接接收单词、词语、字符等标识符(token),所以把标识符数值化一直是人们研究的内容。

整数---》独热编码(硬编码、稀疏,高维)---》向量或词嵌入(低维、稠密)通过学习得来

词向量学习方法:

1.利用平台的embedding层学习词嵌入

<
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值