
NLP
文章平均质量分 57
lxg0807
这个作者很懒,什么都没留下…
展开
-
Stanford NER Service使用
在使用stanford ner工具的时候,每次执行程序时,都需要进行load model,这是非常耗时间的。因此希望能实现一次加载模型,多次使用。 这是可以的,官方也提供这样的API。英文使用//启动Server端java -mx1000m -cp stanford-ner.jar edu.stanford.nlp.ie.NERServer -loadClassifier classifier原创 2016-06-13 15:34:05 · 1942 阅读 · 0 评论 -
基于RNN的语言模型
基于RNN的语言模型1、训练2、计算一句话的概率3、输出下一个词4、给定初始种子,输出一句话原创 2019-07-24 15:15:07 · 811 阅读 · 0 评论 -
sentencepiece原理和使用
sentencepiece在中文上相当于分词+BPE原创 2018-11-30 11:03:55 · 12639 阅读 · 2 评论 -
BPE的原理及代码解析
BPE:在自然语言处理中,序列到序列模型中(机器翻译、对话)需要设置词表,使用较小的词表,有助于提高系统的性能。BPE在欧洲语系可能表现的更为有效一些,主要由于欧洲语系中存在词缀等概念。BPE训练 BPE的大概训练过程:首先将word分成一个一个的字符,然后统计字符对出现的次数,每次将次数最多的字符对保存起来,直到循环次数结束。BPE编码解码过程,经过训练过程,会得到codec文件,...原创 2018-05-29 19:58:53 · 20357 阅读 · 10 评论 -
文本分类系列-使用CNN和LSTM构建分类器的对比
晚了一步,有人已经完成。不过还是会添加一些自己的理解,再写写的。 贴上地址:https://gaussic.github.io/2017/08/30/text-classification-tensorflow/原创 2017-11-01 16:51:41 · 7010 阅读 · 2 评论 -
文本相似度-词袋模型
1、词袋模型 将两篇文本通过词袋模型变为向量模型,通过计算向量的余弦距离来计算两个文本间的相似度。词袋模型的缺点: 词袋模型最重要的是构造词表,然后通过文本为词表中的词赋值,但词袋模型严重缺乏相似词之间的表达。 比如“我喜欢北京”“我不喜欢北京”其实这两个文本是严重不相似的。但词袋模型会判为高度相似。 “我喜欢北京”与“我爱北京”其实表达的意思是非常非常的接近的,但词袋模型不能表示“喜欢”和原创 2017-11-23 16:10:24 · 4658 阅读 · 0 评论 -
文本分类(六):使用fastText对文本进行分类--小插曲
需要注意的问题: 1、linux mac 平台 2、标签中的下划线是两个!两个!两个!环境说明:python2.7、linux 自己打自己脸,目前官方的包只能在linux,mac环境下使用。误导大家了,对不起。 测试facebook开源的基于深度学习的对文本分类的fastText模型 fasttext python包的安装:pip install fasttext第一步获取分...原创 2016-10-28 21:44:27 · 51898 阅读 · 72 评论 -
【文本聚类】用k-means对文本进行聚类
# -*- coding: utf-8 -*-"""Created on Thu Nov 16 10:08:52 2017@author: li-pc"""import jieba from sklearn.feature_extraction.text import TfidfVectorizerfrom sklearn.cluster import KMeansdef jieba_t原创 2017-11-18 16:00:40 · 16737 阅读 · 8 评论 -
n-gram统计 计算句子概率 SRILM安装使用
不是非要写一篇的,是这个网上太少了,而且貌似也没有其他工具来做这项工作了。因此本文主要写怎么使用SRILM统计n-gram,并使用该工具得到的语言模型进行句子概率的计算。当然如果有更好的工具请大家一定要推荐一下。1、安装安装官方写的很简单,遇到问题,又很少有解答的,难道其他人都一次性安装成功了吗。环境:unbuntu16.041.1 下载SRILM下载地址:http://www.speech.sri原创 2017-08-09 21:03:54 · 7815 阅读 · 2 评论 -
CRF++的使用 CRF用于中文分词
本文只讲CRF的应用,CRF的原理已经有足够多的人讲了。1、基石-数据机器学习到现在,最重要的莫过于数据了,模型就那么几个了,数据的规模、质量对模型的影响是非常非常大的。使用的数据为北京大学人民日报的语料,处理的格式如图所示,格式为“词 词性 可分标志”,其中可分标志分为,B为一个词的开始字,E为一个词的结束字,S为单独的字为一个词,句与句之间隔着一个换行符。 2、 CRF模板使用的软件为crf+原创 2017-07-31 18:21:43 · 5480 阅读 · 1 评论 -
文本分类系列-简单的使用cnn对新闻进行分类
为了学习cnn,本文将构建一个简单的cnn模型,对新闻文本进行分类。原创 2017-02-23 11:15:31 · 4121 阅读 · 1 评论 -
分本分类(六):使用LDA+SVM进行文本分类
经过分本分类(五)利用LDA成功的将文本的特征维数降低了,可以拿这些特征使用SVM分类器进行分类,查看一下效果。占位置。。。。原创 2016-11-23 21:33:26 · 9754 阅读 · 5 评论 -
基于RNN的机器翻译
基于RNN的机器翻译1、训练2、翻译原创 2019-07-24 15:17:02 · 2208 阅读 · 8 评论