
NLP
酸菜一汤
分享一些学习笔记。
展开
-
自然语言处理|SkipGram训练中文词向量
课程作业,训练语料是维基百科的中文语料,训练词向量计算两个词之间的余弦相似度。关于预处理网络上有不少教程,这里不再赘述,程序结构图里给出了对应步骤用到的库,可以借鉴。1. 程序结构概览2. 基于Word2Vec的实现 基于Word2Vec的实现直接调用了gensim库,调整了几个参数,调整情况如下,详细代码备注见SGNS_ginsim.py. 训练数据有362826条左右,选择了其中的360000条,分10批进行训练。(1)调整参数使之满足模型要求: s...原创 2020-08-06 22:27:40 · 1486 阅读 · 0 评论 -
自然语言处理|MP最大概率中文分词
课程作业,只完成了最基本的算法,还有不足的地方,例如一些多位数的分词方式等,大家可以适当参考。1.语言模型说明语言模型为bigram,保存在一个(n*n)的numpy矩阵LM中,训练过程:第一次遍历训练语料构建词表,即保存所有出现过的词 第二次遍历训练语料构建二维计数表,bigram[i][j] = count(wi-1,wi) 平滑(由于运算量较大,且测试较小所以平滑运算直接在后面的词表构建过程中单独进行) Laplace平滑仅在计算的二维计数表的每一个位置...原创 2020-08-04 23:58:09 · 664 阅读 · 0 评论