《自然语言处理》相关
《自然语言处理》课程相关
bensonrachel
这个作者很懒,什么都没留下…
展开
-
python3.6-制作一个含有NLP基本功能系统(Windows exe)自然语言处理系统
系统功能:分词、词性标注、关键词提取、文本分类;系统实现:分词:使用jieba中文分词(去停用词,精确模式);词性标注:使用jieba库里的posseg包进行词性标注;关键词提取:使用tfidf的最合适前六个词;文本分类:给复旦预料数据进行分词,生成词向量,装袋(词袋模型),接着训练集训练,多次调参,具体参数注释和代码中有,然后再选择相应测试预料进行测试,用的是skleran库的多项式朴素贝叶斯算法。(有参考其他博客)图形界面:...原创 2020-08-18 21:33:16 · 811 阅读 · 0 评论 -
Python3.6-Flask:制作一个语音对话问答机器人系统(网页版)
首先,本项目分为制作语音机器人后台部分和利用flask搭建网页部分。制作语音机器人:本系统的功能有:与图灵机器人进行对话;设置闹钟(计时器);播放本地音乐:机器写古诗;(1)与图灵机器人对话的部分,参考了这篇博客,博主写得非常用心详细。需要下载安装的包有:cmd:pip install xxxx即可;(2)闹钟功能,这里使用了多线程的技术,把用户语音设定的时间转为文字且交给另一个线程去执行时间流逝,到点即响应报时。多线程的使用如上。(3)播放音乐,需要使用的包原创 2020-08-04 20:18:12 · 2506 阅读 · 1 评论 -
研读论文报告-《Word Embedding andWordNet Based Metaphor Identification and Interpretation》(2018ACL)
“论文主要研究的问题是识别并解释输入句子中的隐喻词,作者首次提出了一个支持机器翻译的无监督隐喻识别模型,无需任何预处理和标注数据即可进行训练。”本次主要根据论文实现的论文的第四部分的如下图:具体:程序步骤是给出一个英文句子,指定需要判断的目标单词,应用维基数据集训练词向量,得到所有英语单词的词向量(我写的程序可追加训练),给出一个英文句子,指定需要判断的目标单词,将句子中的单词分为上下文单词和目标单词。根据WordNet,查找目标单词的同义词和直接上位词,将这些单词以及他们的变形作...原创 2020-07-17 22:20:58 · 525 阅读 · 0 评论 -
python实现——Jaccard相似度(jaccard_coefficient)
Jaccard相似度的python实现;#import numpy as np#from scipy.spatial.distance import pdist#直接调包可以计算JC值 :需要两个句子长度一样;所以暂时不用import jiebadef Jaccrad(model, reference):#terms_reference为源句子,terms_model为候选句子...原创 2019-01-13 20:08:53 · 31991 阅读 · 7 评论 -
自然语言处理(NLP)- 一个英文拼写纠错系统
功能:给出拼写错误的单词,返回一个正确的单词,或者返回一个与输入单词最接近的单词;IDE:pycharm;python3.5;PYQT做界面;数据:使用big.txt作为语料库。主要算法原理: 编辑距离(这里使用的是替换操作算一次开销的版本,跟插入和删除等价):这里的东西请看我的博客算法里的编辑距离问题,这里不在详细说明。编辑距离具体处理方法:把b...原创 2018-12-20 17:42:14 · 7311 阅读 · 3 评论 -
自然语言处理(NLP)- 建立一个搜索引擎(信息检索系统)的点点滴滴
自然语言处理(NLP)- 建立一个搜索引擎(信息检索系统)的点点滴滴教程在最底下代码:建索引: 搜索: bensonrachel简书教程...原创 2018-12-17 14:26:40 · 7039 阅读 · 1 评论 -
自然语言处理(NLP)-统计句法分析(CKY算法用于PCFG下的句法分析)
1.先解释何为CFG及PCFG:一个栗子:2.CKY算法(或称CYK算法)“在计算机科学领域,CYK算法(也称为Cocke–Younger–Kasami算法)是一种用来对 上下文无关文法(CFG,Context Free Grammar)进行语法分析(parsing)的算法。该算法最早由John Cocke, Daniel Younger and Tadao Kasam...原创 2018-12-02 19:59:13 · 12317 阅读 · 0 评论 -
python-Rouge_N-评估模型的实现
引用:Rouge(Recall-Oriented Understudy for Gisting Evaluation),是评估自动文摘以及机器翻译的一组指标。它通过将自动生成的摘要或翻译与一组参考摘要(通常是人工生成的)进行比较计算,得出相应的分值,以衡量自动生成的摘要或翻译与参考摘要之间的“相似度”。ROUGE准则由一系列的评价方法组成,包括ROUGE-N(N=1、2、3、4,分别代表基于1...原创 2018-11-07 21:31:32 · 5168 阅读 · 1 评论 -
python—Rouge(Recall-Oriented Understudy for Gisting Evaluation)
匹配文本评估方法。python实现准确率,召回率X表示模型生成的结果,Y表示运营编辑的结果即reference。多reference的情况,取对应每个reference中最大的rouge-l值作为单个测试数据的结果。LCS 表示最长公共子串。# coding:utf-8''''''import math#输入的两个字符串长度不应为0;def Recall_lcs_G...原创 2018-11-02 21:20:54 · 1391 阅读 · 0 评论 -
自然语言处理(NLP)-基于概率最大化的中文分词算法(Java实现)
摘要:平台使用Netbeans搭载JDK1.8环境编程。实现基于概率最大化的中文分词算法并集成于一个窗体平台(如下图)。字典使用WordFrequency.txt; 理论描述:最大概率法分词是在最大匹配分词算法上的改进。在某些语句切分时,按最大长度切分词语可能并不是最优切分。而不按最优长度切分词语,则同一语句会出现多...原创 2018-11-03 14:11:48 · 3167 阅读 · 0 评论 -
自然语言处理(NLP)-双向匹配中文分词(Java实现)
《NLP-双向匹配中文分词(Java实现)》;摘要:平台使用Netbeans搭载JDK1.8环境编程。实现MM算法及RMM算法并集成于一个窗体平台(如下图)。字典使用ChineseDic.txt; 理论描述:中文分词(Chinese Word Segmenta...原创 2018-10-08 23:52:52 · 6051 阅读 · 0 评论