
自然语言处理
文章平均质量分 92
ziyue246
简单,安静
展开
-
LDA主题模型笔记
LDA图模型 每一篇文档代表了一些主题所构成的一个概率分布,而每一个主题又代表了很多单词所构成的一个概率分布。如下图: K为主题个数,M为文档总数,是第m个文档的单词总数。是每个Topic下词的多项分布的Dirichlet先验参数,是每个文档下Topic的多项分布的Dirichlet先验...原创 2018-07-16 10:17:12 · 1408 阅读 · 0 评论 -
word2vec 学习笔记
1、简介 word2vec是一个简化的神经网络模型,只有输入层,映射层,输出层。 2、架构 CBOW架构,以该词的上下文预测该词; Skip-Gram架构,以该词预测该词的上下文。 其中CBOW计算量相对于Skip-Gram较低一些,具体可见下文两种方式的目标函数。 3、优化方式 Hierarchical Softmax (赫夫曼树+逻辑回归) ...原创 2018-08-30 16:47:23 · 295 阅读 · 0 评论 -
nlp 处理流程
第一步:收集数据(已有的数据,互联网已有的公开数据,数据状态,是否是标准化数据,是否是可以直接使用的数据,是否是有label的数据) 第二步:清洗数据(清理特殊符号,无意义字符,无用数据,质量差的数据)(导入数据,观察数据,数据清洗,数据汇总,文本清洗,数据预处理,数据提取,数据筛选,数据统计,数据输出) 第三步:做特征(one-hot, tf-idf, word2vec, doc2vec,数据...原创 2019-07-14 14:10:46 · 496 阅读 · 0 评论