
自然语言处理
文章平均质量分 90
小小小小小飞鸟
这个作者很懒,什么都没留下…
展开
-
采用Stanford CoreNLP实现英文单词词形还原
最近有个小的任务,根据英文单词的过去分词或现在分词或复数形式获取词语的原形,本来我的思路是:对于不规则变化的词语,建立不规则词表,直接从词表中查询;对于规则的词形变化,自己写规则进行还原。后来发现有些变化涉及到单词的发音,如重读闭音节要双写最后一个单词再变化,这样逆推的话就不好处理,从网上查询获取单词音标也没有实现好的结果。于是从网上搜索资料发现了Stanford CoreNLP这个工具。此工原创 2013-10-24 15:47:01 · 11494 阅读 · 4 评论 -
常用分词方法总结分析
最近对自然语言处理中常见任务的方法做了一下整理总结,并对不同方法做了一些对比分析,资料主要来源于网络以及相关的论文。1.中文分词中文句子是由字组成的连续字符串。为了理解中文语义,首先需要将句子划分为以词为基本单位的词串,这就是中文分词。词是最小的能够独立活动的有意义的语言成分,英文单词之间是以空格作为自然分界符的,而汉语是以字为基本的书写单位,词语之间没有明确的区分标记,因此中文分原创 2015-01-28 18:19:20 · 21903 阅读 · 0 评论 -
自然语言处理(NLP)常用开源工具总结----不定期更新
学习自然语言这一段时间以来接触和听说了好多开源的自然语言处理工具,在这里做一下汇总方便自己以后学习,其中有自己使用过的也有了解不是很多的,对于不甚了解的工具以后学习熟悉了会做更新的。1.IKAnalyzerIK Analyzer是一个开源的,基于Java语言开发的轻量级的中文分词工具包。从2006.12推出1.0版本开始,IK Analyzer已经推出了多个版本,当前最新版本为20原创 2013-11-14 20:07:45 · 32338 阅读 · 2 评论 -
基于条件随机场(CRF)的组织机构实体识别
组织机构实体主要指企事业单位、公司、组织、网站等。我的主要是从文本中识别出组织机构实体名称来。鉴于条件随机场在序列标注方面的优势,以及处理词语特征包括上下文环境特征方面,这次工作采用了条件随机场,具体工具为CRF++。1.语料预处理采用的语料是1998年1月份的《人民日报》语料,这个语料资源是公开的,从网上可以下载到。语料的格式如下所示:语料中已经做好标注,其中nt表示组织机构原创 2014-12-26 15:11:46 · 8251 阅读 · 2 评论 -
Spark下实现LDA+SVM的文本分类处理
最新发布的Spark1.3.1版本中已经实现了LDA的算法,并且以前实现过LDA+SVM进行文本分类的处理程序,借此机会想将程序改为Spark的分布式,Spark已经支持SVM和LDA算法。Spark的环境配置和安装可参考我以前的博客http://blog.youkuaiyun.com/cuixianpeng/article/details/20715673,不过Spark版本是以前的。关于SVM和LDA请自原创 2015-06-02 17:51:23 · 12499 阅读 · 5 评论 -
500万条微博数据来源分析
最近项目不是特别忙,想做一些微博方面的分析和处理工作,如果自己现爬取微博数据,积累数据比较慢,恰好看到北理工张华平老师分享的500万条微博数据,直接借用他的数据分析。下载地址是:http://www.nlpir.org/?action-viewnews-itemid-299因为解压之后的文件较大,足有2.1G,并且对格式不是很清楚,直接打开也无法打开,于是先用文件分割工具将真格文件分割成多个较原创 2016-02-01 10:40:09 · 3591 阅读 · 0 评论 -
Python爬取豆瓣电影
前几天做了一个爬取豆瓣Top250电影的爬虫,在爬取了豆瓣Top250的电影后,想试一试根据电影类别爬取所有的豆瓣电影,基本的原理是想通的。代码采用Python,抠取页面内容采用Beautiful Soup。1.豆瓣电影分析以豆瓣爱情类型电影为例,在浏览区中输入http://www.douban.com/tag/%E7%88%B1%E6%83%85/movie?start=0后显示的内容如原创 2016-02-01 14:41:02 · 4642 阅读 · 1 评论 -
Logistic回归的简单推导过程
原创 2016-03-03 14:54:45 · 1719 阅读 · 0 评论 -
Linux下CRF++安装工作
在平时工作中经常用到条件随机场(CRF)进行任务处理,比如做一些标注工作和命名实体识别工作。自己比较常用的工具就是CRF++,下载地址为。https://code.google.com/p/crfpp/windows下面直接使用即可,Linux需要做一些编译任务。下载后解压缩进入目录。运行命令./configure 提示如下错误需要先安装gcc。执行命令 sudo ap原创 2014-12-26 14:31:07 · 7628 阅读 · 0 评论 -
JGibbLDA使用总结
最近在做基于LDA(Latent Dirichlet Allocation)的文本分类处理,开始学习和接触了LDA,因为代码采用的是Java,所以我选择的LDA开源工具是JGibbLDA,这个是LDA的Java版本实现,下载地址为:http://jgibblda.sourceforge.net/ ,当前最新版本为v1.0。同时对应的C++版本为GibbsLDA,下载地址为:http://gibbs原创 2014-02-20 17:02:20 · 13267 阅读 · 27 评论 -
Scala开发环境搭建
Scala的开发环境有两种,一种是Scala IDE,另一种是在Eclipse中增加插件原创 2014-05-07 17:09:26 · 2344 阅读 · 0 评论 -
基于Gate的中文信息抽取API调用方式--未成功
学习Gate快一周了,一直在看官方的英文文档,却一直收获不到,想在自己的程序中通过API的方式实现调用Gate完成信息抽取。Gate中的ANNIE可以实现英文的命名实体识别,但是却不支持中文,后来发现Gate提供了中文的插件即放于目录plugins下的Lang_Chinese文件夹中的内容,并且提供了分词的功能,然后尝试了一下,具体思路如下。1.设置Gate的home等系统变量。2.调原创 2013-11-05 17:59:46 · 4623 阅读 · 6 评论 -
采用Stanford Parser进行中文语法解析
Stanford Parser是由StanforsNLP Group开发的基于Java的开源NLP工具,支持中文的语法分析,当前最新的版本为3.3.0,下载地址为:http://nlp.stanford.edu/software/lex-parser.shtml。下载后解压。解压文件中lexparser-gui.bat进行可视化页面运行,解析需要的模型文件存放在stanford-parser-3.原创 2013-11-21 19:26:14 · 29106 阅读 · 7 评论 -
基于Gate的ANNIE插件的中文信息抽取
在上一篇文章《基于Gate的中文信息抽取API调用方式--未成功》中本来想采用Gate中的中文插件进行命名实体识别,但是没有成功,最后只能通过扩展Gate中的ANNIE插件来实现了。 ANNIE是Gate中用于英文信息抽取的插件,可以实现英文中的诸如命名实体识别等任务。要想处理中文信息需要对ANNIE进行扩展,包括扩展词表以及规则。ANNIE的主要词表为主目录是ANNIE\reso原创 2013-11-07 17:35:59 · 5095 阅读 · 3 评论 -
基于权值的句子情感分析
主要目的是以句子为基本单位,判断句子的情感状态。主要思路是对于句子中的每个词语,根据一定规则赋予权值,统计句子所包含的所有词语的权值之和,若权值为正,则表示句子的情感状态为积极的,若句子的权值为负,则表示句子的情感状态为负,若为0表示中立的句子。 具体的步骤分为:1.语料预处理 读入的语料可以是包含单个句子的文本也可以是多个句子的文本,对输入的语料进行分原创 2013-11-30 00:39:08 · 2882 阅读 · 0 评论 -
采用Weka中的KNN算法进行文本分类
Weka是新西兰Waikato大学开发的一款开源的基于Java的数据挖掘工具,其官方网址为http://www.cs.waikato.ac.nz/ml/weka/。Weka作为一个公共的数据挖掘的平台,集成了大量的机器学习的算法,包括对数据进行预处理、分类、聚类、回归关联规则等。Weka支持可视化界面操作以及API方式的调用,本文采用API调用方式,基于Weka中集成的KNN算法进行文本分类。原创 2013-11-30 21:07:05 · 12499 阅读 · 2 评论 -
命名实体识别方法汇总
最近在学习命名实体识别,在查阅资料的同时,对命名实体识别的概念以及常用方法做了一下整理汇总,方便以后学习和查阅。命名实体识别(Named EntitiesRecognition, NER)是自然语言处理(Natural LanguageProcessing, NLP)的一个基础任务。其目的是识别语料中人名、地名、组织机构名等命名实体。由于这些命名实体数量不断增加,通常不可能在词典中穷尽列出原创 2014-01-10 15:25:46 · 27696 阅读 · 1 评论 -
Ubuntu12.10部署Spark0.9.0
Spark是由加州大学伯克利分校的AMP实验室开发的类似于Hadoop的开源集群计算环境,Spark将中间数据存放于内存中,比较适合于迭代式计算,应用于机器学习以及数据挖掘中,下面介绍一下我的部署过程,不保证适合于所有人的情况。环境介绍Ubuntu 12.10 JDK1.7.0_45Spark 0.9.0Scala 2.10.3首先确保电脑已经安装JDK,Spark的运行依原创 2014-03-07 17:32:31 · 2505 阅读 · 2 评论 -
微软LUIS语义理解服务介绍
1.LUIS概述LUIS(Language Understanding Intelligent Services)是微软新近推出了的的语义理解服务,可以方便用户进行API调用,创建自己场景的语义理解服务,网址为https://www.luis.ai2.创建自定义的服务2.1创建APP用自己的微软账号登录后,首先创建App,点击New App进行创建输入App名称原创 2016-10-11 20:45:48 · 6320 阅读 · 2 评论