
自然语言处理
文章平均质量分 57
bensonrachel
这个作者很懒,什么都没留下…
展开
-
python3.6-制作一个含有NLP基本功能系统(Windows exe)自然语言处理系统
系统功能:分词、词性标注、关键词提取、文本分类;系统实现:分词:使用jieba中文分词(去停用词,精确模式);词性标注:使用jieba库里的posseg包进行词性标注;关键词提取:使用tfidf的最合适前六个词;文本分类:给复旦预料数据进行分词,生成词向量,装袋(词袋模型),接着训练集训练,多次调参,具体参数注释和代码中有,然后再选择相应测试预料进行测试,用的是skleran库的多项式朴素贝叶斯算法。(有参考其他博客)图形界面:...原创 2020-08-18 21:33:16 · 811 阅读 · 0 评论 -
自然语言处理(NLP)——使用NLTK包验证齐夫定律及使用wordnet
第一题,利用大文本验证“齐夫定律”的正确性,首先我们使用pycharm作为集成开发环境,python3.5+nltk来做实验。齐夫定律:齐夫定律(英语:Zipf's law)是由哈佛大学的语言学家乔治·金斯利·齐夫(George Kingsley Zipf)于1...原创 2019-05-17 23:12:44 · 2076 阅读 · 1 评论 -
语料库技术与应用—基于维基百科构建日语平行语料并爬取谷歌翻译语音(mp3)
准备:wikipedia-parallel-titles项目(老师给的) This document describes how to use these tools to build a parallel corpus (for a specific language pair) based on article titles across languages in Wik...原创 2019-03-22 21:33:46 · 2016 阅读 · 2 评论 -
python实现——Jaccard相似度(jaccard_coefficient)
Jaccard相似度的python实现;#import numpy as np#from scipy.spatial.distance import pdist#直接调包可以计算JC值 :需要两个句子长度一样;所以暂时不用import jiebadef Jaccrad(model, reference):#terms_reference为源句子,terms_model为候选句子...原创 2019-01-13 20:08:53 · 31991 阅读 · 7 评论 -
自然语言处理(NLP)- 建立一个搜索引擎(信息检索系统)的点点滴滴
自然语言处理(NLP)- 建立一个搜索引擎(信息检索系统)的点点滴滴教程在最底下代码:建索引: 搜索: bensonrachel简书教程...原创 2018-12-17 14:26:40 · 7039 阅读 · 1 评论 -
自然语言处理(NLP)- 一个英文拼写纠错系统
功能:给出拼写错误的单词,返回一个正确的单词,或者返回一个与输入单词最接近的单词;IDE:pycharm;python3.5;PYQT做界面;数据:使用big.txt作为语料库。主要算法原理: 编辑距离(这里使用的是替换操作算一次开销的版本,跟插入和删除等价):这里的东西请看我的博客算法里的编辑距离问题,这里不在详细说明。编辑距离具体处理方法:把b...原创 2018-12-20 17:42:14 · 7310 阅读 · 3 评论 -
自然语言处理(NLP)-统计句法分析(CKY算法用于PCFG下的句法分析)
1.先解释何为CFG及PCFG:一个栗子:2.CKY算法(或称CYK算法)“在计算机科学领域,CYK算法(也称为Cocke–Younger–Kasami算法)是一种用来对 上下文无关文法(CFG,Context Free Grammar)进行语法分析(parsing)的算法。该算法最早由John Cocke, Daniel Younger and Tadao Kasam...原创 2018-12-02 19:59:13 · 12317 阅读 · 0 评论 -
自然语言处理(NLP)- HMM+VITERBI算法实现词性标注(解码问题)(动态规划)(Python实现)
NLP- HMM+维特比算法进行词性标注(Python实现) 维特比算法针对HMM解码问题,即解码或者预测问题(下面的第二个问题),寻找最可能的隐藏状态序列:对于一个特殊的隐马尔可夫模型(HMM)及一个相应的观察序列,找到生成此序列最可能的隐藏状态序列。也就是说给定了HMM的模型参数和一个观测序列,计算一系列的隐状态。给定观测序列,求最可能的对应的隐状态序列。Viterbi:...原创 2018-11-18 20:42:54 · 5456 阅读 · 3 评论 -
python-Rouge_N-评估模型的实现
引用:Rouge(Recall-Oriented Understudy for Gisting Evaluation),是评估自动文摘以及机器翻译的一组指标。它通过将自动生成的摘要或翻译与一组参考摘要(通常是人工生成的)进行比较计算,得出相应的分值,以衡量自动生成的摘要或翻译与参考摘要之间的“相似度”。ROUGE准则由一系列的评价方法组成,包括ROUGE-N(N=1、2、3、4,分别代表基于1...原创 2018-11-07 21:31:32 · 5168 阅读 · 1 评论 -
自然语言处理(NLP)-双向匹配中文分词(Java实现)
《NLP-双向匹配中文分词(Java实现)》;摘要:平台使用Netbeans搭载JDK1.8环境编程。实现MM算法及RMM算法并集成于一个窗体平台(如下图)。字典使用ChineseDic.txt; 理论描述:中文分词(Chinese Word Segmenta...原创 2018-10-08 23:52:52 · 6051 阅读 · 0 评论