本文主要同大家分享word2vec原理以及应用,通过文本相似度和新闻文本分类为案例进行展开,最后对词向量技术发展进行简述。
作者:走在前方
博客:https://wenjie.blog.youkuaiyun.com/
专注于文本分类、关键词抽取、文本摘要、FAQ 问答系统、对话系统语义理解 NLU、知识图谱等研究和实践。结合工业界具体案例和学术界最新研究成果实现 NLP 技术场景落地。
本次分享主要内容
- 词向量以及相关应用介绍
- NLP常见的任务
- 词离散化表示和分布式表示
- 词相似性分析以及词嵌入可视化
- 词向量知识理论介绍
- NNLM模型和word2vec 模型
- fastText 词向量以及文本分类原理
- pytorch 工具构建word2vec 模型
- 词向量的概念
- 用 skip-gram 模型训练词向量
- PyTorch dataset 和 dataloader
- 定义 PyTorch 模型
- 学习 torch.nn 中常见的 Module
- Embedding
- 学习常见的 PyTorch operations
- bmm
- logsigmoid
- 保存和读取 PyTorch 模型