嵌入技术的应用:自然语言处理/传统的机器学习/搜索排序/推荐/知识图谱
Word Embedding
Item Embedding
Graph Embedding
Categorical variables Embedding
单一静态---》动态
Word Embedding ---》ELMo Transformer GPT BERT XLNet ALBERT
1.1 处理序列问题的一般步骤
序列问题:自然语言处理、网页浏览、时间序列
如何处理序列问题?如何挖掘序列中隐含的规则和逻辑?
如何用NLP提炼出某新闻报道的语言材料的摘要信息?需要考虑哪些内容?涉及哪些步骤?先从哪一步开始?
清理工作(特殊符号、格式转换、过滤停用词)---》分词---》索引化---》模型/算法 单词、词等标识符向量化---》输出给下游任务

词嵌入或预训练模型很重要,他们的质量好坏直接影响下游任务的效果。
1.2 Word Embedding
机器无法直接接收单词、词语、字符等标识符(token),所以把标识符数值化一直是人们研究的内容。
整数---》独热编码(硬编码、稀疏,高维)---》向量或词嵌入(低维、稠密)通过学习得来

词向量学习方法:
1.利用平台的embedding层学习词嵌入
<
本文介绍了词嵌入(WordEmbedding)及其在自然语言处理(NLP)、推荐系统中的应用。从整数到向量的转换,通过CBOW和Skip-gram模型,以及HierarchicalSoftmax和NegativeSampling的优化策略进行词向量学习。此外,还探讨了ItemEmbedding在序列特征场景中的运用,特别是在推荐系统中的实践,如微软推荐系统采用Item2Vec算法提升效果。
最低0.47元/天 解锁文章

被折叠的 条评论
为什么被折叠?



