
自然语言处理
沃·夏澈德
今天的明天是后天的昨天。----茨鲍勒·程德
展开
-
win10 nlg-eval使用以及提问,求过路高手解答~
安装https://github.com/Maluuba/nlg-eval从上面连接下载,如何运行setup.py即可。demofrom nlgeval import compute_metricsmetrics_dict = compute_metrics(hypothesis='data/hyp.txt', references=['data/ref1.txt'])输出:结果倒是出来了,但是会报错,不知道怎么解原创 2020-10-28 20:18:30 · 1081 阅读 · 7 评论 -
动态规划----通俗理解动态规划解决最小编辑距离的原理
最小编辑距离两个字符串之间的最小编辑距离,就是其中一个字符串通过若干次插入,删除,替换字符从而得到另一个字符,而这若干次就是最小编辑距离,这里假定允许替换为一次操作,否则替换则认为是删除,插入,是两次操作。原理方面这里有一片写的很详细的博文https://blog.youkuaiyun.com/qq_34552886/article/details/72556242,以下主要为举例理解。先上一...原创 2018-11-06 20:51:03 · 1081 阅读 · 0 评论 -
python 中文分词(规则分词实现,HMM+Viterbi实现统计分词,jieba分词应用)
参考书目:python自然语言处理实战——核心技术与算法规则分词顾名思义,直接靠规则来进行分词,这种方法是一种机械的分词方法,主要手段就是通过将语句的每个字符串与词表进行匹配,找到就分,找不到就不分。词表:天气真好今天伤心冬瓜汤句子:今天天气真好结果:今天/天气/真好按照匹配的方式,规则分词主要有正向最大匹配法,逆向最大匹配法以及双向最大匹配...原创 2018-11-05 11:46:00 · 4540 阅读 · 0 评论 -
NLP----关键词提取算法(TextRank,TF/IDF)
参考书目:python自然语言处理实战——核心技术与算法TF/IDF基本思想:TF是计算一个词在一篇文档中出现的频率,IDF是一个词在多少篇文档中出现过,显然TF越高证明这个词在这篇文章中的代表性就越强,而INF越低则证明这个词在具有越强的区分能力。因此中和这两个数,就能较好地算出文档的关键词。关键公式|D_i|是文档中出现词i的文档数量,|D|是文档数附上书上抄来的代码...原创 2018-11-14 22:03:03 · 7607 阅读 · 9 评论 -
NLP----神经网络语言模型(NNLM),词向量生成,词嵌入,python实现
理论主要来自论文A Neural Probabilistic Language Model,可以百度到的这篇博文对理论方面的介绍挺不错的 链接地址一下是其中的一些截图,主要是算法步骤部分算法步骤前向计算反向更新 个人实现的代码import globimport randomimport mathimport pickleimport nu...原创 2018-12-03 20:27:49 · 4384 阅读 · 8 评论 -
glove_python 安装
https://www.jianshu.com/p/2d5e42f4caf6原创 2019-09-14 14:13:09 · 2108 阅读 · 0 评论