
自然语言处理NLP
lionzl
轻财足以聚人,律己足以服人,量宽足以得人,身先足以率人
展开
-
[转]哈工大开源项目LTP系统的首次运行
forever1dreamsxx--NLP[转]哈工大开源项目LTP系统的首次运行2012-7-26阅读1225 评论2原文地址:http://www.mrluoyi.com/blog/2011/07/tutorial-of-ltp/ (环境:Windows, VS2008)chubby_roro@qq.com0. 说明转载 2015-11-10 13:45:33 · 748 阅读 · 0 评论 -
LSA潜在语义分析
LSA潜在语义分析标签: 算法自然语言处理机器学习wiki2014-11-19 22:20 2781人阅读 评论(0) 收藏 举报 分类:NLP目录(?)[+]在Wiki上看到的LSA的详细介绍,感觉挺好的,遂翻译过来,有翻译不对之处还望指教。原文地址:http://en.wikipedia.org转载 2015-11-26 17:30:38 · 680 阅读 · 0 评论 -
潜在语义分析
潜在语义分析博客分类: 机器学习 1 LSA IntroductionLSA(latent semantic analysis)潜在语义分析,也被称为LSI(latent semantic index),是Scott Deerwester, Susan T. Dumais等人在1990年提出来的一种新的索引和检索方法。该方法和传统向量空间模型(v转载 2015-11-26 17:34:46 · 1465 阅读 · 0 评论 -
贝叶斯网络小结
贝叶斯网络小结标签: 算法贝叶斯网络机器学习2014-12-21 20:32 1581人阅读 评论(0) 收藏 举报 分类:算法与数学(14) 版权声明:本文为博主原创文章,未经博主允许不得转载。周末去给同事分享贝叶斯网络,每次分享过后的东西都没有记录感觉挺可惜的,故把准备分享过程中的一些笔记、资料、关键点等写成文章记转载 2015-11-26 18:55:28 · 2177 阅读 · 0 评论 -
统计自然语言处理——n元语法(马尔可夫模型)小结
统计自然语言处理——n元语法(马尔可夫模型)小结标签: 自然语言处理signal算法floatsystemqt2012-02-29 22:22 3156人阅读 评论(0) 收藏 举报 分类:自然语言处理版权声明:本文为博主原创文章,未经博主允许不得转载。终于把书看到传说中重要的第六章了。。。看完第六章开始后悔之前花那么转载 2015-11-26 18:12:53 · 491 阅读 · 0 评论 -
卡方检验文本特征选择
卡方检验文本特征选择 2014-11-17 20:16:15分类: 大数据关于卡方检验,下面这篇blog介绍的比较详细,仔细思索之后,对一些点做如下说明,个人理解:1. 关于假设“词t与类别c无关”。这个假设应该变更为“词t不是对分类有区分度的特征”,(c是一个类别,除了c之外的所有数据组成另一个类别,类似逻辑回归多分类的方法)。一个词的卡方检验值高,并不能转载 2015-11-27 08:53:18 · 1380 阅读 · 0 评论 -
GBDT(MART) 迭代决策树入门教程 | 简介
在网上看到一篇对从代码层面理解gbdt比较好的文章,转载记录一下: GBDT(Gradient Boosting Decision Tree) 又叫 MART(Multiple Additive Regression Tree),是一种迭代的决策树算法,该算法由多棵决策树组成,所有树的结论累加起来做最终答案。它在被提出之初就和SVM一起被认为是泛化能力(g转载 2015-11-30 15:42:08 · 383 阅读 · 0 评论 -
【深度】2015年自然语言处理顶级会议EMNLP都讲了些什么?
2015年EMNLP自然语言处理实证方法会议(Conferenceon Empirical Methods in Natural Language Processing)于2015年9月17-22日在葡萄牙里斯本市召开。EMNLP是自然语言处理领域的顶级会议,由ACL学会下属特殊兴趣小组SIGDAT(ACL Special Interest Group on Linguistic data and转载 2016-01-15 12:03:21 · 1008 阅读 · 0 评论 -
SIGHAN评测回顾-1-(2003-2005)
SIGHAN评测回顾-1-(2003-2005)2013-06-21 10:45 1470人阅读 评论(1) 收藏 举报 分类: NLP文献阅读(22) 版权声明:本文为博主原创文章,未经博主允许不得转载。 这2篇blog是对SIGHAN2003-2010中文分词任务中使用的方法的简要概述,不详细不精确,个别数据可能有一转载 2016-05-11 07:56:01 · 1450 阅读 · 0 评论 -
知识图谱技术原理介绍
知识图谱技术原理介绍 莫扎特 2016-01-09 17:31:55 大数据技术 评论(3)作者:王昊奋近两年来,随着Linking Open Data[1] 等项目的全面展开,语义Web数据源的数量激增,大量RDF数据被发布。互联网正从仅包含网页和网页之间超链接的文档万维网(Document Web)转变成包含大量描述各种实体和实体之间丰富关系的数据万维网(Dat转载 2016-10-20 17:28:00 · 2444 阅读 · 0 评论 -
GPU编程语言选择(OpenCL、CUDA 与C++ AMP)
1、CUDA、OpenCL与C++ AMP 其实在C++ AMP之前已经有了两个异构编程框架:CUDA与OpenCL。CUDA(Compute Unified Device Architecture)是显卡厂商Nvidia于2007年推出的业界第一款异构并行编程框架。在Nvidia的大力支持下,CUDA拥有良好的开发环境,丰富的函数库,优秀的性能。但是CUDA只能被用于转载 2016-12-26 17:48:05 · 1867 阅读 · 1 评论 -
elasticsearch的实现全文检索
elasticsearch的实现全文检索大岩不灿 发表于 2014年8月9日 浏览 24,285 次elasticsearch一个准实时的搜索引擎,基于lucene构建,它的主要强项还是在全文检索方面。工作中还是使用到了这部分功能,这里做一个简单的总结,可以使初次使用的人很快的配置和使用。一、全文检索的概念首先介绍全文检索的概念,就是对一篇文章进行索引,可以根据关键转载 2016-12-26 17:49:39 · 832 阅读 · 0 评论 -
什么是本体论?
什么是本体论? 李泽健 什么是本体论?想必大凡刚刚接触这个概念的人都是一头雾水,有的甚至几年时间都弄不明白它说的到底是什么意思,鄙人不才就是这样的愚人。 哲学上的概念本来就够烦人的了,抽象拗口、晦涩难懂,一副不把你搞晕誓不罢休的样子,但就这还都是其次,更让人恼火的是,这些不明不白的东西竟然延伸到了科学技术领域,比如,本体论这头怪物就已转载 2016-12-26 19:08:19 · 1108 阅读 · 0 评论 -
给外行能看懂的科普:这就叫自然语言处理
自然语言处理Natural Language Processing一、什么是自然语言处理简单地说,自然语言处理(Natural Language Processing,简称NLP)就是用计算机来处理、理解以及运用人类语言(如中文、英文等),它属于人工智能的一个分支,是计算机科学与语言学的交叉学科,又常被称为计算语言学。由于自然语言是人类区别于其他动物的根本标志。没有语言,人类的思维转载 2017-03-08 16:51:32 · 1963 阅读 · 0 评论 -
序列标注模型
序列标注模型 (2015-01-30 09:29:34)转载▼ 背景知识序列标注模型被广泛应用于文本处理相关领域,例如分词、词性标注、命名实体识别等方面。现有的序列标注模型主要有HMM,MEMM 以及 CRF,通过对这几种自然语言处理中常用的序列标注模型进行对比,分析其各自的优缺点。在介绍三种序列标注模型转载 2015-11-26 16:08:34 · 2176 阅读 · 0 评论 -
机器学习中的数学(5)-强大的矩阵奇异值分解(SVD)及其应用
机器学习中的数学(5)-强大的矩阵奇异值分解(SVD)及其应用版权声明: 本文由LeftNotEasy发布于http://leftnoteasy.cnblogs.com, 本文可以被全部的转载或者部分使用,但请注明出处,如果有问题,请联系wheeleast@gmail.com前言: 上一次写了关于PCA与LDA的文章,PCA的实现一般有两种,一种是用特征值分解去转载 2015-11-26 17:18:19 · 495 阅读 · 0 评论 -
统计语言模型学习笔记
统计语言模型学习笔记 (2011-05-13 18:10:17)转载▼标签: 统计 n-gram n-pos 语言模型 it分类: 自然语言 语言模型(Language Model)是描述自然语言内在规律的数学模型。构造语言模型是计算语言学的核心。在实践中,语言模型转载 2015-11-26 16:49:14 · 540 阅读 · 0 评论 -
Day14:使用斯坦福 NER 软件包实现你自己的命名实体识别器(Named Entity Recognition,NER)
Day14:使用斯坦福 NER 软件包实现你自己的命名实体识别器(Named Entity Recognition,NER)JeOam 5.8k 2013年12月15日 发布推荐 0 推荐收藏 5 收藏,6.2k 浏览编者注:我们发现了有趣的一系列文章《30天学习30种新技术》,正在翻译中,一天一篇更新,年终礼包。下面是第 1转载 2015-11-10 13:49:03 · 1136 阅读 · 0 评论 -
中文词性标注以及命名实体识别
中文词性标注以及命名实体识别 (2011-02-22 16:49:24)转载▼标签: it分类: NLP目前在中文词性标注(Part-of-speech Tagging)方面做的比较好的有:哈工大的LTP:http://ir.hit.edu.cn/demo/ltp/Sharing_Plan.htm中科院的ICT转载 2015-11-10 13:46:49 · 1522 阅读 · 0 评论 -
TF-IDF与余弦相似性的应用(二):找出相似文章
TF-IDF与余弦相似性的应用(二):找出相似文章作者: 阮一峰日期: 2013年3月21日上一次,我用TF-IDF算法自动提取关键词。今天,我们再来研究另一个相关的问题。有些时候,除了找到关键词,我们还希望找到与原文章相似的其他文章。比如,"Google新闻"在主新闻下方,还提供多条相似的新闻。为了找出相似的转载 2015-10-30 17:02:04 · 518 阅读 · 0 评论 -
局部敏感哈希(Locality-Sensitive Hashing, LSH)方法介绍
局部敏感哈希(Locality-Sensitive Hashing, LSH)方法介绍分类: 图像检索 CVPR 视频检索2013-10-06 12:07 22672人阅读 评论(14) 收藏 举报LSH局部敏感哈希ANN近似近邻查找Locality-sensitive-h局部敏感哈希(Locality-Sensitive Hashing, LSH)方法介绍转载 2015-10-30 17:33:54 · 514 阅读 · 0 评论 -
TF-IDF与余弦相似性的应用(三):自动摘要
TF-IDF与余弦相似性的应用(三):自动摘要作者: 阮一峰日期: 2013年3月26日有时候,很简单的数学方法,就可以完成很复杂的任务。这个系列的前两部分就是很好的例子。仅仅依靠统计词频,就能找出关键词和相似文章。虽然它们算不上效果最好的方法,但肯定是最简便易行的方法。今天,依然继续这个主题。讨论如何通过词频,对文章转载 2015-10-30 17:02:36 · 422 阅读 · 0 评论 -
TF-IDF与余弦相似性的应用(一):自动提取关键词
TF-IDF与余弦相似性的应用(一):自动提取关键词作者: 阮一峰日期: 2013年3月15日这个标题看上去好像很复杂,其实我要谈的是一个很简单的问题。有一篇很长的文章,我要用计算机提取它的关键词(Automatic Keyphrase extraction),完全不加以人工干预,请问怎样才能正确做到?这个问题转载 2015-10-30 17:00:29 · 393 阅读 · 0 评论 -
主题模型-LDA小结
一.主题模型传统判断两个文档相似性的方法是通过查看两个文档共同出现的单词的多少,如TF-IDF等,这种方法没有考虑到文字背后的语义关联,可能在两个文档共同出现的单词很少甚至没有,但两个文档是相似的。 举个例子,有两个句子分别如下: “乔布斯离我们而去了。” “苹果价格会不会降?”转载 2015-10-30 17:08:49 · 793 阅读 · 0 评论 -
算法杂货铺——分类算法之决策树(Decision tree)
3.1、摘要 在前面两篇文章中,分别介绍和讨论了朴素贝叶斯分类与贝叶斯网络两种分类算法。这两种算法都以贝叶斯定理为基础,可以对分类及决策问题进行概率推断。在这一篇文章中,将讨论另一种被广泛使用的分类算法——决策树(decision tree)。相比贝叶斯算法,决策树的优势在于构造过程不需要任何领域知识或参数设置,因此在实际应用中,对于探测式的知识发现,决策树更加适用。转载 2015-11-17 16:05:02 · 439 阅读 · 0 评论 -
数学之美番外篇:平凡而又神奇的贝叶斯方法
数学之美番外篇:平凡而又神奇的贝叶斯方法By 刘未鹏(pongba)C++的罗浮宫(http://blog.youkuaiyun.com/pongba)TopLanguage(http://groups.google.com/group/pongba)概率论只不过是把常识用数学公式表达了出来。——拉普拉斯记得读本科的时候,最喜欢到城里的计算机书店里面去闲逛,一逛转载 2015-11-17 18:50:44 · 411 阅读 · 0 评论 -
文本语言模型的参数估计-最大似然估计、MAP及贝叶斯估计
以PLSA和LDA为代表的文本语言模型是当今统计自然语言处理研究的热点问题。这类语言模型一般都是对文本的生成过程提出自己的概率图模型,然后利用观察到的语料数据对模型参数做估计。有了语言模型和相应的模型参数,我们可以有很多重要的应用,比如文本特征降维、文本主题分析等等。本文主要介绍文本分析的三类参数估计方法-最大似然估计MLE、最大后验概率估计MAP及贝叶斯估计。1、最大似然估计转载 2015-12-11 15:11:41 · 572 阅读 · 0 评论 -
NLP自然语言处理系列——LDA主题词模型探析
NLP自然语言处理系列——LDA主题词模型探析时间 2015-06-17 22:39:57 十一城elevencitys.com原文 http://elevencitys.com/2015/06/nlp自然语言处理系列-lda主题词模型探析/主题 LDA(一)LDA作用传统判断两个文档相似性的方法是通过查看两个文档共同出现的单词的多少,如TF-IDF转载 2015-11-26 17:38:04 · 2893 阅读 · 0 评论 -
学习排序 Learning to Rank 小结
学习排序 Learning to Rank 小结标签: 学习排序Learning to Rank机器学习2013-05-26 12:14 10921人阅读 评论(1) 收藏 举报 分类:机器学习(9) 版权声明:本文为博主原创文章,未经博主允许不得转载。目录(?)[+]学习排序(Learning to Ra转载 2015-11-26 19:55:35 · 645 阅读 · 0 评论 -
第一章 语料库语言学基本知识
第一章 语料库语言学基本知识 (2012-10-21 22:53:07)转载▼标签: 杂谈分类: 我的阅读《语料库应用教程》梁茂成 李文中 许家金著 外语教学与研究出版社 2011年1月第一部分 语料库语言学基本知识与语料库基本操作第一章 语料库语言学基本知识一 基本概念1. 文本:转载 2015-11-26 16:41:26 · 8931 阅读 · 0 评论