
NLP
bbzz2
这个作者很懒,什么都没留下…
展开
-
常用处理(NLP)
自然语言处理(NLP)常用开源工具总结(转) 1.IKAnalyzer IK Analyzer是一个开源的,基于Java语言开发的轻量级的中文分词工具包。从2006.12推出1.0版本开始,IK Analyzer已经推出了多个版本,当前最新版本为2012 u6,最初基于Luence,从3.0开始成为面向Java的公用分词组件,独立于Luence,下载地址转载 2017-05-11 13:23:11 · 593 阅读 · 0 评论 -
中文分词组件
1.下载mecab-chinesedic-binary,放在MeCab bin目录下,具体参考:详细详细可参考《用MeCab打造一套实用的中文分词系统》cmd运行命令:mecab -d mecab-chinesedic-binary wakati wiki.zh.text.jian -o wiki.zh.text.jian.seg -b 10000000 其中,wiki.zh.te转载 2017-05-17 09:07:13 · 664 阅读 · 0 评论 -
机器人
用的模型为RNN(seq2seq),和前文的《RNN生成古诗词》《RNN生成音乐》类似。 本次博客使用的数据集:影视对白数据集; 下载数据集后,解压提取dgk_shooter_min.conv文件; 1)数据预处理:[python] view plain copy #coding=utf转载 2017-05-17 09:08:57 · 903 阅读 · 0 评论 -
评论进行分类
neg.txt:5331条负面电影评论(http://blog.topspeedsnail.com/wp-content/uploads/2016/11/neg.txt)pos.txt:5331条正面电影评论 (http://blog.topspeedsnail.com/wp-content/uploads/2016/11/pos.txt) 由于处理的转载 2017-05-17 09:10:04 · 1087 阅读 · 0 评论 -
文档生成字典
在自然语言处理任务中,经常会对文本进行预处理。这种操作中 有一部分十分重要,即建立词典。下面将给出一段讲解的Python代码。# 生成词汇表文件def gen_vocabulary_file(input_file, output_file): vocabulary = {} with open(input_file) as f: counter = 0转载 2017-05-17 09:12:32 · 718 阅读 · 0 评论 -
Windows下使用Word2vec继续词向量训练
word2vec是Google在2013年提出的一款开源工具,其是一个Deep Learning(深度学习)模型(实际上该模型层次较浅,严格上还不能算是深层模型,如果word2vec上层再套一层与具体应用相关的输出层,如Softmax,便更像是一个深层模型),它将词表征成实数值向量,采用CBOW(Continuous Bag-Of-Words Model,连续词袋模型)和Skip-Gram(C转载 2017-05-17 10:24:51 · 716 阅读 · 0 评论 -
使用Stanford Word Segmenter and Stanford Named Entity Recognizer (NER)实现中文命名实体识
一、分词介绍http://nlp.stanford.edu/software/segmenter.shtml斯坦福大学的分词器,该系统需要JDK 1.8+,从上面链接中下载stanford-segmenter-2014-10-26,解压之后,如下图所示,进入data目录,其中有两个gz压缩文件,分别是ctb.gz和pku.gz,其中CTB:宾州大学的中国树库训练资料 ,PKU:中国北京翻译 2017-05-31 11:26:24 · 875 阅读 · 0 评论 -
NLP分词
中科院NLPIR中文分词java版摘要:为解决中文搜索的问题,最开始使用PHP版开源的SCWS,但是处理人名和地名时,会出现截断人名地名出现错误。开始使用NLPIR分词,在分词准确性上效果要比SCWS好。本文介绍如何在windows系统下编译JAVA ,生成可以执行的jar文件。 NLPIR的下载地址:http://ictclas.nlpir.org/downloa转载 2017-06-05 16:46:10 · 760 阅读 · 0 评论 -
基于深层神经网络的命名实体识别技术
命名实体识别是从文本中识别具有特定类别的实体,例如人名、地名、机构名等。命名实体识别是信息检索,查询分类,自动问答等问题的基础任务,其效果直接影响后续处理的效果,因此是自然语言处理研究的一个基础问题。引言命名实体识别(Named Entity Recognition,后文简称NER)是指从文本中识别具有特定类别的实体(通常是名词),例如人名、地名、机构名、专有名词等。命名实体识转载 2017-06-01 15:37:04 · 1086 阅读 · 0 评论 -
关系抽取
目的从文本中识别实体并抽取实体之间的语义关系主流的关系抽取技术有监督的学习方法:将关系抽取任务当做分类问题。根据训练数据设计有效的特征,从而学习各类分类模型,然后使用训练好的分类器预测关系。该方法的问题在于需要大量的人工标注训练语料,而语料标注工作通常非常耗时耗力。半监督的学习方法:主要采用 BootStrapping 进行关系抽取,对于要抽取的关系,该方法首先手工设定若干种子实例转载 2017-06-01 16:22:51 · 18524 阅读 · 2 评论 -
常用工具(原理分析)
kaldi常用工具(原理分析)工具介绍使用:http://blog.youkuaiyun.com/zjm750617105/article/details/52540823 , 如果只想看怎么用那看前边那个link就足够了,不需要再往下读了,下边是对上篇文章的补充,主要是第3条到第7条。 3. 查看生成的GMM的模型,比如monophone, triphone的model。kaldi/转载 2017-06-06 08:37:26 · 854 阅读 · 0 评论 -
命名实体识别理论来源与参考
相关文章理论来源与参考:http://www.matrix67.com/blog/archives/5044https://zhuanlan.zhihu.com/p/25499358http://www.hankcs.com/nlp/extraction-and-identification-of-mutual-information-about-the-phrase-base转载 2017-06-06 10:52:34 · 720 阅读 · 0 评论 -
语音识别系统
最近一直在折腾kaldi,在这个庞大的系统面前,自己是那么的微小。由于数据库的原因,我只能运行kaldi所给例子的一部分。下面就来说说最近的进展吧。 第一个例子就是yesno这个例子。由于提供数据,而且数据比较小,可以非常容易的去实现这个例子。具体的可以见我之前的博客:语音识别工具箱之kaldi介绍。 第二个例子是rm里面的s4。具体的步骤也很简单,首先运行./ge转载 2017-05-03 18:11:23 · 557 阅读 · 0 评论 -
语义分析
plsa(Probabilistic Latent Semantic Analysis) 概率隐语义分析Probabilistic Latent Semantic Analysis主题模型简介plsa,也就是概率隐语义分析,是主题模型的一种。主题模型是什么呢?先从文档说起,每篇文档用bag-of-words模型表示,也就是每篇文档只与所包含的词有关,而不考虑这些词的转载 2017-05-03 14:01:16 · 1391 阅读 · 0 评论 -
训练过程概要
word2vec (一) 简介与训练过程概要因为在组里分享会要讲word2vec,重新整理了之前凌乱的笔记,结果发现有不少新的收获,真是所谓的温故而知新!词的向量化与word2vec简介word2vec最初是Tomas Mikolov发表的一篇文章[1],同时开源了相应的代码,作用是将所有词语投影到K维的向量空间,每个词语都可以用一个K维向量表示。为什么转载 2017-05-03 14:02:41 · 674 阅读 · 0 评论 -
训练一个词向量空间
word2vec (四) 动手训练一个词向量空间开源的word2vec工具已经有不少了,可以直接使用google开源的C版本,也可以用gensim版本的。这里我就用gensim的word2vec来训练一个词向量空间。训练语料输入gensim word2vec的API接受一系列的句子作为输入语料,其中每一个句子是一系列词构成的list。如下所示import gen转载 2017-05-03 14:03:54 · 1210 阅读 · 0 评论 -
文本分类
FastText 文本分类使用心得最近在一个项目里使用了fasttext[1], 这是facebook今年开源的一个词向量与文本分类工具,在学术上没有什么创新点,但是好处就是模型简单,训练速度又非常快。我在最近的一个项目里尝试了一下,发现用起来真的很顺手,做出来的结果也可以达到上线使用的标准。其实fasttext使用的模型与word2vec的CBOW模型在结构上是一样的转载 2017-05-03 14:05:11 · 1093 阅读 · 0 评论 -
回归树
GBDT由一系列的回归树组成,如下图所示(树的深度未必都要一样,下图仅为示意图)。GBDT原理针对每一个类别训练一系列的回归树,再累加每个类别回归树的预测值得到针对每个类别的最终的预测值。单独拿一个类别来说,训练的过程中假设需要预测的值为f(xi),实际的值为yi,有Loss Function L(yi,f(xi)),f(xi)为参数。训练的过程就是让Loss Fu转载 2017-05-03 14:07:28 · 822 阅读 · 0 评论 -
高级词向量表达
FastText是Facebook开发的一款快速文本分类器,提供简单而高效的文本分类和表征学习的方法,不过这个项目其实是有两部分组成的,一部分是这篇文章介绍的 fastText 文本分类(paper:A. Joulin, E. Grave, P. Bojanowski, T. Mikolov, Bag of Tricks for Efficient Text Classificatio转载 2017-05-03 14:27:15 · 1756 阅读 · 0 评论 -
文本进行分类
文本进行分类测试facebook开源的基于深度学习的对文本分类的fastText模型 fasttext Python包的安装:pip install fasttext11第一步获取分类文本,文本直接用的清华大学的新闻分本,可在文本系列的第三篇找到下载地址。 数据格式: 样本 + 样本标签import jiebabasedir = "/home/li/转载 2017-05-04 14:56:29 · 528 阅读 · 0 评论 -
spark分布式安装 spark集群搭建 hadoop集群搭建
搭建1个master,2个slave的集群方案。软件操作系统:ubuntu16.04 #同样适用centos系统hadoop:hadoop-2.7.2.tar.gzscala:scala-2.11.8.tgzspark: spark-1.6.1-bin-hadoop2.6.tgzjava:jdk-8u91-linux-x64.tar.gz1234512345创建hado转载 2017-05-04 15:22:35 · 501 阅读 · 0 评论 -
国内外自然语言处理(NLP)研究组
*博客地址 http://blog.youkuaiyun.com/wangxinginnlp/article/details/44890553*排名不分先后。收集不全,欢迎留言完善。中国大陆地区:微软亚洲研究院自然语言计算组 Natural Language Computing (NLC) Group https://www.microsoft.co转载 2017-05-24 13:48:40 · 3431 阅读 · 0 评论 -
NLP︱中文分词技术小结、几大分词引擎的介绍与比较
NLP︱中文分词技术小结、几大分词引擎的介绍与比较笔者想说:觉得英文与中文分词有很大的区别,毕竟中文的表达方式跟英语有很大区别,而且语言组合形式丰富,如果把国外的内容强行搬过来用,不一样是最好的。所以这边看到有几家大牛都在中文分词以及NLP上越走越远。哈工大以及北大的张华平教授(NLPIR)的研究成果非常棒!但是商业应用的过程中存在的以下的问题:1、是否转载 2017-05-25 16:07:21 · 2205 阅读 · 0 评论 -
词典加载及简要分词过程
ansj词典加载及简要分词过程 粗略看了点ansj源代码,记录备忘。 词典等配置文件加载类 (以调用 NlpAnalysis 分词类为例): 1, MyStaticValue 初始化 NlpAnalysis 中 static 的静态变量 spliansj词典加载及简要分词过程粗略看了点ansj源代码,记录备忘。 词典等配置文件加载类(以调用N转载 2017-05-26 14:34:10 · 1443 阅读 · 0 评论 -
定制模型
定制你自己的CRF模型CompileYouth edited this page on Jan 4 · 3 revisionsPages 20Home书名识别停用词过滤关键词抽取分词方式创建Restful分词接口定制你自己的CRF模型插件及第三方支持新词发现小工具易误用方法提醒歧义纠正辞典用户自定义词典用户自定义词典的动态添加删除Demo用户自定义词转载 2017-05-26 11:17:31 · 910 阅读 · 0 评论 -
CRF++ 运行与安装
选择example里的某个例子做测试,比如选chunking。将crf_learn.exe;crf_test.exe;libcrfpp.dll三个文件复制到到,含有exec.sh;template;test.data;train.data的文件夹(chunking)里。cmdcd进入该文件夹c:\>F: (直接写硬盘名字即可进入该盘)F:\>cd CRF++0.5转载 2017-05-24 18:53:15 · 823 阅读 · 0 评论 -
文本挖掘的基本流程
一、获取文本 我们获取网络文本,主要是获取网页HTML的形式。我们要把网络中的文本获取文本数据库(数据集)。编写爬虫(Spider)程序,抓取到网络中的信息。可以用广度优先和深度优先;根据用户的需求,爬虫可以有垂直爬虫和通用爬虫之分,垂直爬取主要是在相关站点爬取或者爬取相关主题的文本 ,而通用爬虫则一般对此不加限制。爬虫可以自己写,当然现在网络上已经存在很多开源的爬虫系统(比如Pyt转载 2017-06-01 18:28:12 · 3778 阅读 · 0 评论