
nlp
文章平均质量分 92
ziyue246
简单,安静
展开
-
LDA主题模型笔记
LDA图模型每一篇文档代表了一些主题所构成的一个概率分布,而每一个主题又代表了很多单词所构成的一个概率分布。如下图: K为主题个数,M为文档总数,是第m个文档的单词总数。是每个Topic下词的多项分布的Dirichlet先验参数,是每个文档下Topic的多项分布的Dirichlet先验...原创 2018-07-16 10:17:12 · 1408 阅读 · 0 评论 -
word2vec 学习笔记
1、简介 word2vec是一个简化的神经网络模型,只有输入层,映射层,输出层。2、架构 CBOW架构,以该词的上下文预测该词; Skip-Gram架构,以该词预测该词的上下文。 其中CBOW计算量相对于Skip-Gram较低一些,具体可见下文两种方式的目标函数。3、优化方式 Hierarchical Softmax (赫夫曼树+逻辑回归) ...原创 2018-08-30 16:47:23 · 295 阅读 · 0 评论 -
pLSA图模型笔记
pLSA图模型求解目标p(W,D) ,整个文档集合的出现概率,使得p(W,D) 最大化,即为plsa的目标:下面咱们开始求解p(W,D):为 词wj在文档di中出现的次数;注释:为第m篇文档中,第n个词出现的概率,为第i篇文档中词表中第i个词出现的概率,由于di利用EM算法求至此,我们就可以用em算法迭代求解了其中、需要用偏导数=0...原创 2018-09-13 15:29:04 · 250 阅读 · 0 评论 -
Attention 机制 笔记
attention,注意力模型,词袋模型为k的维度,为了是该参数是为了提高模型的稳定性;self-attention : Q=K=V原创 2018-11-08 11:42:26 · 296 阅读 · 0 评论 -
nlp 处理流程
第一步:收集数据(已有的数据,互联网已有的公开数据,数据状态,是否是标准化数据,是否是可以直接使用的数据,是否是有label的数据)第二步:清洗数据(清理特殊符号,无意义字符,无用数据,质量差的数据)(导入数据,观察数据,数据清洗,数据汇总,文本清洗,数据预处理,数据提取,数据筛选,数据统计,数据输出)第三步:做特征(one-hot, tf-idf, word2vec, doc2vec,数据...原创 2019-07-14 14:10:46 · 496 阅读 · 0 评论