
NLP
文章平均质量分 79
追梦船
机器学习,自然语言处理方向的小菜鸟
展开
-
倒排索引
转自http://blog.youkuaiyun.com/ithomer/article/details/5658427简介 倒排索引源于实际应用中需要根据属性的值来查找记录。这种索引表中的每一项都包括一个属性值和具有该属性值的各记录的地址。由于不是由记录来确定属性值,而是由属性值来确定记录的位置,因而称为倒排索引(inverted index)。带有倒排索引的文件我们称为倒排索引文件,转载 2013-11-27 13:30:17 · 1283 阅读 · 7 评论 -
NLP语料库
英语学习者语料库(书面语及口语)中国学习者语料库 CLEC(100万)广外、上海交大大学英语学习者口语语料库 COLSEC (5万) 上海交大香港科技大学学习者语料库 HKUST Learner Corpus 香港科技大学中国英语专业语料库 CEME (148万) 南京大学中国英语学习者口语语料库 SECCL (100万) 南京大学国际外语学习者英语口语语料库中国部分 LINS转载 2014-04-24 18:00:50 · 3641 阅读 · 1 评论 -
语音识别结果文本纠错综述
语音识别结果的纠错是语音理解过程中的一项重要工作。由于受限于语音识别的准确性,语音识别的结果常常会出现错误,这将对语音理解的后续工作造成障碍,增加了语音理解的难度。语音识别结果的纠错可以对一些识别的错误结果进行纠正,从而提高语音理解的准确性。目前,用于语音识别结果纠正的方法有很多,但还没有一个主流的方法。大多数的ASR后修正的研究都是基于词的识别结果概率信息的统计方法。Ringger和Al原创 2014-04-16 16:08:46 · 10102 阅读 · 5 评论 -
文本相似度算法
文本相似度算法1.信息检索中的重要发明TF-IDF1.1TFTerm frequency即关键词词频,是指一篇文章中关键词出现的频率,比如在一篇M个词的文章中有N个该关键词,则(公式1.1-1)为该关键词在这篇文章中的词频。1.2IDFInverse document frequency指逆向文本频率,是用于衡量关键词权重的指数,由公式(公式1.2-1)计算而得转载 2014-06-13 11:46:30 · 1268 阅读 · 0 评论 -
海量数据相似度计算之simhash和海明距离
通过 采集系统 我们采集了大量文本数据,但是文本中有很多重复数据影响我们对于结果的分析。分析前我们需要对这些数据去除重复,如何选择和设计文本的去重算法?常见的有余弦夹角算法、欧式距离、Jaccard相似度、最长公共子串、编辑距离等。这些算法对于待比较的文本数据不多时还比较好用,如果我们的爬虫每天采集的数据以千万计算,我们如何对于这些海量千万级的数据进行高效的合并去重。最简单的做法是拿着待比较的文本转载 2014-06-17 16:07:33 · 1126 阅读 · 0 评论 -
海量数据相似度计算之simhash短文本查找
转自:http://blog.youkuaiyun.com/lance_yan/article/details/11451781在前一篇文章 《海量数据相似度计算之simhash和海明距离》 介绍了simhash的原理,大家应该感觉到了算法的魅力。但是随着业务的增长 simhash的数据也会暴增,如果一天100w,10天就1000w了。我们如果插入一条数据就要去比较1000w次的simhash,计转载 2014-06-17 16:34:54 · 1124 阅读 · 0 评论 -
深度学习,自然语言处理和表征方法
简介过去几年,深度神经网络在模式识别中占绝对主流。它们在许多计算机视觉任务中完爆之前的顶尖算法。在语音识别上也有这个趋势了。虽然结果好,我们也必须思考……它们为什么这么好使?在这篇文章里,我综述一下在自然语言处理(NLP)上应用深度神经网络得到的一些效果极其显著的成果。我希望能提供一个能解释为何深度神经网络好用的理由。我认为这是个非常简练而优美的视角。单隐层神经网络单隐层神经网转载 2014-10-23 10:26:21 · 1943 阅读 · 0 评论 -
搜索引擎知识图谱相关结构化数据挖掘与去歧处理
知识图谱的规模 据不完全统计,Google知识图谱到目前为止包含了5亿个实体和35亿条事实(形如实体-属性-值,和实体-关系-实体)。其知识图谱是面向全球的,因此包含了实体和相关事实的多语言描述。不过相比占主导的英语外,仅包含其他语言(如中文)的知识图谱的规模则小了很多。与此不同的是,百度和搜狗主要针对中文搜索推出知识图谱,其知识库中的知识也主要以中文来描述,其规模略小于Google的。转载 2014-09-29 16:14:45 · 2707 阅读 · 0 评论 -
汉字自动注音程序
汉字注音在平时应用中,可能会有这样的需求:要给一些中文进行自动注音。这个程序就是根据这个需求实现的。思想汉字注音程序的思想主要是依赖一些已有的常用词的注音词表。对于给定的需要注音的汉字串text,首先对text进行分词。这里的分词方法采用了正向最大匹配和逆向最大匹配想结合的方法。然后根据注音词表中每个词是某个音的概率,得到一个最大可能的注音结果。思想很简单,原创 2014-11-01 20:07:39 · 3440 阅读 · 0 评论 -
中文分词算法总结
中文分词基本算法主要分类基于词典的方法、基于统计的方法、基于规则的方法、(传说中还有基于理解的-神经网络-专家系统,按下不表)1、基于词典的方法(字符串匹配,机械分词方法)定义:按照一定策略将待分析的汉字串与一个“大机器词典”中的词条进行匹配,若在词典中找到某个字符串,则匹配成功。按照扫描方向的不同:正向匹配和逆向匹配按照长度的不同:最大匹配和最小匹配1.1正向最大匹配思想转载 2014-11-02 15:41:50 · 4202 阅读 · 0 评论 -
如何预测用户query意图
有一个朋友问,一个用户搜索一个query是“百度”,怎么知道用户真正是想找什么呢。 我回答说,分析之前搜索这个query的用户点了些什么结果啊。 朋友继续问,如果没有用户点击呢。 呃,如果没有点击,这个问题就比较复杂了。整理了下思路,于是写成了本文。主要描述了关于如何预测用户query意图。希望会有所帮助。 首先我们的明确一个标准,如何判断我们对用户意图的猜测是正确的?转载 2014-12-16 12:43:22 · 1835 阅读 · 0 评论 -
主题提取综述
主题提取综述 随着因特网在全球范围内的飞速发展,网络媒体已被公认为是继报纸、广播、电视之后的“第四媒体”,网络成为反映社会舆情的主要载体之一。网络环境下的舆情信息的主要来源有:新闻评论、BBS、聊天室、博客、聚合新闻(RSS)。网络舆情表达快捷、信息多元,方式互动,具备传统媒体无法比拟的优势。网络舆情形成迅速,对社会影响巨大,不仅需要各级党政干部密切关注,也需要社会各界高度重视。最转载 2015-01-07 10:07:35 · 3346 阅读 · 0 评论 -
基于深层神经网络的命名实体识别技术
命名实体识别是从文本中识别具有特定类别的实体,例如人名、地名、机构名等。命名实体识别是信息检索,查询分类,自动问答等问题的基础任务,其效果直接影响后续处理的效果,因此是自然语言处理研究的一个基础问题。引言命名实体识别(Named Entity Recognition,后文简称NER)是指从文本中识别具有特定类别的实体(通常是名词),例如人名、地名、机构名、专有名词等。命名实转载 2015-09-12 10:58:00 · 1528 阅读 · 0 评论 -
知识库构建前沿:自动和半自动知识提取
编者按:在过去几十年,人们曾尝试采用直接编辑知识、利用大众智慧、自动或半自动知识抽取三类方法来构建知识库。随着时代发展,直接编辑知识由于受时间和经济成本的约束,这种方式很难实现大规模知识库的构建。而利用大众智慧是指利用互联网众包机制,过于依赖激励机制将降低知识库运行稳定性。微软亚洲研究院主管研究员史树明在本文中重点讨论第三类方法——自动或半自动知识抽取,其基本思想是设计自动或半自动的算法,从现有的转载 2014-04-24 18:34:24 · 1986 阅读 · 0 评论 -
估计概率构造短语翻译表
经过第三步抽取短语后,获得基于短语系统使用的翻译短语对,而接下来的第四步就是短语翻译表概率估计,它的作用是对翻译短语对的正确性进行合理的评估。 在上一节,我们得到了短语对集合,如下图所示: 在这里,我们估计概率主要进行四个分数的计算,即双向短语翻译概率(正向:“源语言->目标语言”方向;反向:“目标语言->源语言”方向 )、双向词汇化权重。首先,在上图上转载 2014-04-22 09:55:07 · 945 阅读 · 0 评论 -
Google开源的Deep-Learning项目word2vec处理中文
用中文把玩Google开源的Deep-Learning项目word2vechttp://www.cnblogs.com/wowarsenal/p/3293586.html转载 2013-12-06 02:06:42 · 2185 阅读 · 0 评论 -
词向量和语言模型
最近在看词向量相关的东西,需要看的相关论文很多,自己又没能抽出许多时间来细细品读。简单的读几篇又遇到了许多不懂的地方。发现了一篇很不错的blog,甚是欢喜,分享一下,希望对想看相关内容的朋友有所帮助。转自http://licstar.net/archives/328本文目录:0. 词向量是什么1. 词向量的来历2. 词向量的训练 2.0 语言模型简介 2.1转载 2014-01-02 16:28:07 · 1853 阅读 · 0 评论 -
隐马尔可夫模型细谈
隐马尔可夫模型 (Hidden Markov Model,HMM) 最初由 L. E. Baum 和其它一些学者发表在一系列的统计学论文中,随后在语言识别,自然语言处理以及生物信息等领域体现了很大的价值。平时,经常能接触到涉及 HMM 的相关文章,一直没有仔细研究过,都是蜻蜓点水,因此,想花一点时间梳理下,加深理解,在此特别感谢 52nlp 对 HMM 的详细介绍。 考虑下面交通灯的例子转载 2014-01-15 17:32:40 · 1231 阅读 · 1 评论 -
[lingpipe学习笔记]基于LingPipe的文本倾向性分析
lingpipe是一个非常全面的自然语言处理工具包,它包含很多自然语言处理常用的功能,如命名实体识别,分词,词性标注,分类聚类等。下文主要讲述的是将lingpipe用到文本倾向性分析。转自:http://www.cnblogs.com/htynkn/archive/2012/06/17/lingpipe_1.html文本倾向性分析(情感分析 )是将用户的观点分为“正面”和“负面”,有时候会转载 2014-01-23 09:45:20 · 4415 阅读 · 1 评论 -
python做nlp的工具nltk
nltk是一个python工具包, 用来处理和自然语言处理相关的东西. 包括分词(tokenize), 词性标注(POS), 文本分类, 等等现成的工具.1. nltk的安装资料1.1: 黄聪:Python+NLTK自然语言处理学习(一):环境搭建 http://www.cnblogs.com/huangcong/archive/2011/08/29/2157437.html转载 2014-01-15 17:42:23 · 2326 阅读 · 0 评论 -
基于编辑距离的字符串近似搜索
最近早做一些工作需要用到编辑距离相关的内容,以达到字句容错,模糊查找相关的工作。发现了下面这篇文章,所以分享一下。 转自http://www.cnblogs.com/Aimeast/archive/2011/09/05/2167844.html 来源:.Net.NewLife。 需求:假设在某系统存储了许多地址,例如:“北京市海淀区中关村大街1号海龙大厦”。用户输入“转载 2014-01-23 16:49:19 · 2463 阅读 · 1 评论 -
HNC理论
HNC(概念层次网络)理论参考:http://www.hackchi.com/hnc/books/hnc/bookml.html HNC是“Hierarchical Network Concepts(概念层次网络)”的简称,它是面向整个自然语言理解的理论框架。这个理论框架是以语义表达为基础的,它对语义的表达是概念化、层次化、网络化的,所以称它为概念层次网络理论转载 2014-01-16 16:24:44 · 3531 阅读 · 0 评论 -
斯坦福自然语言组资源
地址:http://www-nlp.stanford.edu/links/statnlp.html该地址对自然语言处理中各种任务的资源进行了汇总。包括各种工具,代码,语料库,字典,课程的链接及简单介绍,是非常全的自然语言处理资源。写在这里备忘,同时分享给志趣相投的朋友!原创 2014-01-20 14:33:48 · 838 阅读 · 0 评论 -
语言模型训练工具SRILM详解
SRILM是著名的约翰霍普金斯夏季研讨会(Johns Hopkins Summer Workshop)的产物,诞生于1995年,由SRI实验室的Andreas Stolcke负责开发维护。关于SRILM的安装,我已经在前面关于moses平台搭建的文章(参见:《Moses相关介绍》和《Ubuntu8.10下moses测试平台搭建全记录》) 中介绍过了,这里就不再重复。准确的说,SRILM并不是因转载 2014-03-29 18:27:41 · 2087 阅读 · 0 评论 -
ngram模型的光滑处理
由于语料不可能覆盖掉所有的情况,比如语料中有“小明读了一本书”, 那么“小李读了一本书”没有在语料中出现按照MLE最大似然估计其概率就是0,这显然是不合常理的。所以我们需要对模型进行光滑处理,就是要分一部分概率给语料中没有出现的部分。问题是如何分配,应该分配多少呢。(下面的课件来自nhu的NLP课程) 这种情况看上去我们分给未知部分的概率太多了24/29 更多的观察更转载 2014-03-27 16:09:39 · 3022 阅读 · 0 评论 -
中文分词实现——双向最大匹配
关于中文分词的一些基本介绍,可以看这篇博客《中文分词方法总结》。这里就不再进行详细介绍了。双向最大匹配方法双向最大匹配方法是一种基于词典的分词方法。基于词典的分词方法是按照一定策略将待分析的汉字串与一个“大机器词典”中的词条进行匹配,若在词典中找到某个字符串,则匹配成功。按照扫描方向的不同:正向匹配和逆向匹配按照长度的不同:最大匹配和最小匹配正向最大匹配思想FM原创 2014-11-02 16:06:44 · 17877 阅读 · 8 评论