
NLP
文章平均质量分 57
bensonrachel
这个作者很懒,什么都没留下…
展开
-
研读论文报告-《Word Embedding andWordNet Based Metaphor Identification and Interpretation》(2018ACL)
“论文主要研究的问题是识别并解释输入句子中的隐喻词,作者首次提出了一个支持机器翻译的无监督隐喻识别模型,无需任何预处理和标注数据即可进行训练。”本次主要根据论文实现的论文的第四部分的如下图:具体:程序步骤是给出一个英文句子,指定需要判断的目标单词,应用维基数据集训练词向量,得到所有英语单词的词向量(我写的程序可追加训练),给出一个英文句子,指定需要判断的目标单词,将句子中的单词分为上下文单词和目标单词。根据WordNet,查找目标单词的同义词和直接上位词,将这些单词以及他们的变形作...原创 2020-07-17 22:20:58 · 525 阅读 · 0 评论 -
自然语言处理(NLP)-双向匹配中文分词(Java实现)
《NLP-双向匹配中文分词(Java实现)》;摘要:平台使用Netbeans搭载JDK1.8环境编程。实现MM算法及RMM算法并集成于一个窗体平台(如下图)。字典使用ChineseDic.txt; 理论描述:中文分词(Chinese Word Segmenta...原创 2018-10-08 23:52:52 · 6051 阅读 · 0 评论 -
python—Rouge(Recall-Oriented Understudy for Gisting Evaluation)
匹配文本评估方法。python实现准确率,召回率X表示模型生成的结果,Y表示运营编辑的结果即reference。多reference的情况,取对应每个reference中最大的rouge-l值作为单个测试数据的结果。LCS 表示最长公共子串。# coding:utf-8''''''import math#输入的两个字符串长度不应为0;def Recall_lcs_G...原创 2018-11-02 21:20:54 · 1391 阅读 · 0 评论 -
自然语言处理(NLP)-基于概率最大化的中文分词算法(Java实现)
摘要:平台使用Netbeans搭载JDK1.8环境编程。实现基于概率最大化的中文分词算法并集成于一个窗体平台(如下图)。字典使用WordFrequency.txt; 理论描述:最大概率法分词是在最大匹配分词算法上的改进。在某些语句切分时,按最大长度切分词语可能并不是最优切分。而不按最优长度切分词语,则同一语句会出现多...原创 2018-11-03 14:11:48 · 3167 阅读 · 0 评论 -
自然语言处理(NLP)- HMM+VITERBI算法实现词性标注(解码问题)(动态规划)(Python实现)
NLP- HMM+维特比算法进行词性标注(Python实现) 维特比算法针对HMM解码问题,即解码或者预测问题(下面的第二个问题),寻找最可能的隐藏状态序列:对于一个特殊的隐马尔可夫模型(HMM)及一个相应的观察序列,找到生成此序列最可能的隐藏状态序列。也就是说给定了HMM的模型参数和一个观测序列,计算一系列的隐状态。给定观测序列,求最可能的对应的隐状态序列。Viterbi:...原创 2018-11-18 20:42:54 · 5456 阅读 · 3 评论 -
自然语言处理(NLP)-统计句法分析(CKY算法用于PCFG下的句法分析)
1.先解释何为CFG及PCFG:一个栗子:2.CKY算法(或称CYK算法)“在计算机科学领域,CYK算法(也称为Cocke–Younger–Kasami算法)是一种用来对 上下文无关文法(CFG,Context Free Grammar)进行语法分析(parsing)的算法。该算法最早由John Cocke, Daniel Younger and Tadao Kasam...原创 2018-12-02 19:59:13 · 12317 阅读 · 0 评论 -
自然语言处理(NLP)- 一个英文拼写纠错系统
功能:给出拼写错误的单词,返回一个正确的单词,或者返回一个与输入单词最接近的单词;IDE:pycharm;python3.5;PYQT做界面;数据:使用big.txt作为语料库。主要算法原理: 编辑距离(这里使用的是替换操作算一次开销的版本,跟插入和删除等价):这里的东西请看我的博客算法里的编辑距离问题,这里不在详细说明。编辑距离具体处理方法:把b...原创 2018-12-20 17:42:14 · 7311 阅读 · 3 评论 -
自然语言处理(NLP)- 建立一个搜索引擎(信息检索系统)的点点滴滴
自然语言处理(NLP)- 建立一个搜索引擎(信息检索系统)的点点滴滴教程在最底下代码:建索引: 搜索: bensonrachel简书教程...原创 2018-12-17 14:26:40 · 7039 阅读 · 1 评论 -
语料库技术与应用—基于维基百科构建日语平行语料并爬取谷歌翻译语音(mp3)
准备:wikipedia-parallel-titles项目(老师给的) This document describes how to use these tools to build a parallel corpus (for a specific language pair) based on article titles across languages in Wik...原创 2019-03-22 21:33:46 · 2016 阅读 · 2 评论