
NLP
文章平均质量分 80
NLP
优惠券已抵扣
余额抵扣
还需支付
¥49.90
¥99.00
购买须知?
本专栏为图文内容,最终完结不会低于15篇文章。
订阅专栏,享有专栏所有文章阅读权限。
本专栏为虚拟商品,基于网络商品和虚拟商品的性质和特征,专栏一经购买无正当理由不予退款,不支持升级,敬请谅解。
life1024
hello
展开
-
开源nlp自然语言处理 word2vec nltk textblob crf++ 机器人、翻译、简繁转换、分词、词性、词向量、关键词主题、命名体识别、语义分析、情感正负面、近义同义词、句子相似性、聚类
github开源持续更新:https://github.com/lhyxcxy/nlp说明本例子主要集成各种nlp框架使用包括 word2vec nltk textblob crf++ 等具体功能(1)自动问答机器人(2)中文翻译,及繁体转简体(3)关键词提取,主题提取,摘要提取(4)命名体识别(5)分词(6)情感分析,正负类分析(7)近义词,同义词,句子相似性(8)聚类,监督,无监督(9)词性标注(10)词向量提取.├── chatbot ######...原创 2020-12-09 09:49:11 · 535 阅读 · 0 评论 -
nlp 总结 分词,词义消歧,词性标注,命名体识别,依存句法分析,语义角色标注
分词中文分词 (Word Segmentation, WS) 指的是将汉字序列切分成词序列。 因为在汉语中,词是承载语义的最基本的单元。分词是信息检索、文本分类、情感分析等多项中文自然语言处理任务的基础。例如,句子正确分词的结果是原创 2020-12-09 09:53:38 · 11126 阅读 · 0 评论 -
自然语言处理包 哈工大 LTP的使用
开始使用LTPLTP 的下载和安装依赖:CMake在 Windows (MSVC) 下编译在 Linux, macOS 和 Cygwin 下编译编译结果说明使用ltp_test和xxx_cmdlineLTP模型文件ltp_test主程序xxx_cmdline细节兼容性测试使用编程接口使用动态库分词接口词性标注接口命名实体识别接口依存句法分析接口语义角色标注接口原创 2017-03-21 14:52:12 · 17267 阅读 · 1 评论 -
指代消解
一、什么是指代消解?1、指代的基本概念指代作为一种常见的语言现象,广泛存在于自然语言的各种表达中。eg:***俄罗斯总统*** 在德国发表讲话时表示:“我们不排除中油集团参与已拍卖的尤甘斯克的生产。”***他*** 表示,中油集团没有参加这次拍卖1212中文的指代主要有以下三种典型的形式【1】:1.人称代词(Pronoun)【李明】怕高妈妈一人呆在家里原创 2017-03-21 14:43:36 · 7346 阅读 · 0 评论 -
依存句法分析与语义依存分析的区别
github开源代码:https://github.com/lhyxcxy/nlp依存句法分析 依存语法 (Dependency Parsing, DP) 通过分析语言单位内成分之间的依存关系揭示其句法结构。 直观来讲,依存句法分析识别句子中的“主谓宾”、“定状补”这些语法成分,并分析各成分之间的关系。例如,句子依存句法分析结果(via哈工大LTP): 从分析结果中我们可以看到,句子的核心谓词为“提出”,主语是,提出的宾语是“支持上海…”,“调研…时”是“提出”的(时..转载 2020-12-09 09:48:36 · 2887 阅读 · 0 评论 -
关于关键词提取,摘要提取的,及文本相似总结
关键词:TF/IDFtextRank(pageRank的变种):利用词共现制作无向有权图,通过设置贡献窗口长度k,也就是在词w的前k个和后k个出现的词都与w有线相连,初始化相同噢工的随即权重,迭代运算直至前后权重变化小与某个很小的值时,词的权重就确定了。权重越大,词越重要,相当于w相连的词给w打分。摘要:TF/IDF:计算去除停用词后的每句话中词的权重和,权重大原创 2017-03-21 11:23:31 · 7421 阅读 · 0 评论 -
使用 ChatterBot 做简单的机器人
ChatterBot是一个基于机器学习的聊天机器人引擎,构建在python上,主要特点是可以自可以从已有的对话中进行学习。安装调试最简单的聊天机器人安装1pipinstallchatterbot基本使用原创 2017-03-20 17:59:25 · 7611 阅读 · 0 评论 -
jieba 分词自定义词典问题
只对长词起作用对如果定义的词比jieba自己分的短,则没有用下面是三种分词方式的影响原始:#encoding=utf-8import jiebaimport osimport systest_text="电话号码查询"#精确模式seg_list = jieba.cut(test_text,cut_all=False)seg_list = " ".join(seg_li原创 2017-03-20 15:18:34 · 13579 阅读 · 1 评论 -
计算两向量的欧式距离,余弦相似度
>>> import numpy>>> vec1=[[1,1,1],[2,2,2]]>>> vec2=[[2,2,2],[1,1,1]]>>> vec1=numpy.array(vec1)>>> vec2=numpy.array(vec2)>>> vec1array([[1, 1, 1], [2, 2, 2]])>>> vec2array([[2, 2, 2],原创 2017-03-09 11:24:40 · 4091 阅读 · 1 评论 -
1998年人民日报语料库,词的最长,最短匹配 提取问题,
由于语料中包括 [中央/n 人民/n 广播/vn 电台/n]nt 此类词问题,可以选择最长词提取,也可以选择最短词提取# -*- coding: utf-8 -*-import codecswordfile=codecs.open("199801.txt",encoding="gbk")curpusfile=codecs.open("curpus.txt",'w'原创 2017-03-08 18:06:24 · 4035 阅读 · 0 评论 -
深度学习框架的比较(MXNet, Caffe, TensorFlow, Torch, Theano)
1. 基本概念1.1 MXNet相关概念 深度学习目标:如何方便的表述神经网络,以及如何快速训练得到模型 CNN(卷积层):表达空间相关性(学表示) RNN/LSTM:表达时间连续性(建模时序信号) 命令式编程(imperative programming):嵌入的较浅,其中每个语句都按原来的意思执行,如numpy和Torch就是属于这种原创 2017-03-21 15:22:42 · 898 阅读 · 0 评论 -
聊天机器人 ,中文翻译,繁简 ,关键词提取,主题提取,摘要提取 ,命名体识别,分词 ,情感分析,正负类分析 ,近义词,同义词,句子相似性,聚类,监督,无监督,词性标注,词向量句子向量
github 原码地址 https://github.com/lhyxcxy/lhy-nlp(1)机器人(2)中文翻译,及繁体转简体(3)关键词提取,主题提取,摘要提取(4)命名体识别(5)分词(6)情感分析,正负类分析(7)近义词,同义词,句子相似性(8)聚类,监督,无监督(9)词性标注(10)词向量提取.├── chatbot ##################原创 2017-03-12 10:41:46 · 1902 阅读 · 0 评论 -
word2vec的负采样算法
负采样算法任何采样算法都应该保证频次越高的样本越容易被采样出来。基本的思路是对于长度为1的线段,根据词语的词频将其公平地分配给每个词语:counter就是w的词频。于是我们将该线段公平地分配了:接下来我们只要生成一个0-1之间的随机数,看看落到哪个区间,就能采样到该区间对应的单词了,很公平。但怎么根据小数找区间呢?速度慢可不行。w原创 2017-03-22 16:16:25 · 15563 阅读 · 2 评论 -
句子相似 BM25 python 实现
# -*- coding: utf-8 -*-import mathclass BM25(object): def __init__(self, docs): """ :param docs: 分好词的list """ self.D = len(docs) self.avgdl原创 2017-09-20 11:05:22 · 2652 阅读 · 0 评论 -
搜索相似之——BM25算法
1.BM25算法BM25是二元独立模型的扩展,其得分函数有很多形式,最普通的形式如下:∑其中,k1,k2,K均为经验设置的参数,fi是词项在文档中的频率,qfi是词项在查询中的频率。K1通常为1.2,通常为0-1000K的形式较为复杂K=上式中,dl表示文档的长度,avdl表示文档的平均原创 2017-09-18 09:12:08 · 738 阅读 · 0 评论 -
关于NLP的word Embedding
Embedding在数学上表示一个maping, f: X -> Y, 也就是一个function,其中该函数是injective(就是我们所说的单射函数,每个Y只有唯一的X对应,反之亦然)和structure-preserving (结构保存,比如在X所属的空间上X1 通俗的翻译可以认为是单词嵌入,就是把X所属空间的单词映射为到Y空间的多维向量,那么该多维向量相当于嵌入到Y所属空间中,一个萝原创 2017-08-16 16:15:29 · 1001 阅读 · 0 评论 -
对话语料库
用于训练中英文对话系统的语料库 Datasets for Training Chatbot System用于对话系统的中英文语料本项目收集了一些从网络中找到的用于训练中文(英文)聊天机器人的对话语料公开语料搜集到的一些数据集如下,点击链接可以进入原始地址dgk_shooter_min.conv.zip中文电影对白语料,噪音比较大,许多对白问答关系没有原创 2017-05-23 18:04:11 · 20909 阅读 · 2 评论 -
tensorflow常用函数 (二)
摘要:本文主要对tf的一些常用概念与方法进行描述。1、tensorflow的基本运作为了快速的熟悉TensorFlow编程,下面从一段简单的代码开始:import tensorflow as tf #定义‘符号’变量,也称为占位符 a = tf.placeholder("float") b = tf.placeholder("float") y = tf.mul(原创 2017-03-17 09:58:31 · 914 阅读 · 0 评论 -
ltp语言云 调用说明
地址:http://www.ltp-cloud.com/document/语言云新版API是REST风格的WEB API调用服务,REST API服务有诸多优点,这使得它越来越流行。应用于语言云服务中,主要有如下特点:免SDK安装:REST API的调用无须用户下载SDK,使得语言分析更为便捷。结果表示格式丰富:API提供了包括PLAIN/XML/JSON/CONLL等多种格式的结果表原创 2017-03-24 12:35:54 · 2017 阅读 · 2 评论 -
standford nlp 教程
githubhttps://github.com/stanfordnlp/CoreNLP官网:http://stanfordnlp.github.io/CoreNLP/simple.html功能:SummaryAnnotator dependenciesTokenizationSentence SplittingLemmatizationParts of Spee原创 2017-03-29 14:29:23 · 9124 阅读 · 2 评论 -
知识图谱的理解
记得我读小学那会儿,语文老师时常念的一些话就是:“知识改变未来,知识改变人生”,数学老师就会说:“学好数理化,走遍天下都不怕”,表达的都是知识的重要性,而时至今日,我身边已然没有人再说这些,因为对于知识重要性的认知已经融入大家的血液中了。随着时代的发展,我们进入了前所未有的信息大爆炸时代,信息背后蕴藏着的则是海量的知识,而知识带动着整个社会的发展与进步。早在远古时代,也许几块石头或者一个原创 2017-03-22 17:03:47 · 8874 阅读 · 1 评论 -
CRF++进行中文分词安装使用
安装CRF和安装maxent差不多,都是./configure,make,sudo su,make install。CRF提供了各种语言的工具包,有java、python、perl等。我用的是python语言工具包,所以还要安装python工具包:python setup.py build ,(sudo) python setup.py install。安装完成后,可以打开python shell原创 2020-12-09 09:47:43 · 6226 阅读 · 2 评论 -
线形回归与损失函数
假设 特征 和 结果 都满足线性。即不大于一次方。这个是针对 收集的数据而言。收集的数据中,每一个分量,就可以看做一个特征数据。每个特征至少对应一个未知的参数。这样就形成了一个线性模型函数,向量表示形式:这个就是一个组合问题,已知一些数据,如何求里面的未知参数,给出一个最优解。 一个线性矩阵方程,直接求解,很可能无法直接求解。有唯一解的数据集,微乎其微。基本上都是解不存原创 2017-01-24 11:09:36 · 1217 阅读 · 0 评论 -
CRF 安装错误
在平时工作中经常用到条件随机场(CRF)进行任务处理,比如做一些标注工作和命名实体识别工作。自己比较常用的工具就是CRF++。下载地址为:https://code.google.com/p/crfpp/(此下载地址已不可用)。官网地址为:https://taku910.github.io/crfpp/windows下面直接使用即可,Linux需要做一些编译任务。下载后解压缩进入目录。运行命原创 2017-01-18 19:35:36 · 1724 阅读 · 0 评论 -
python 使用 CRFPP包错误问题
源码安装好crf++后,可能会遇到以下问题.(1)如果python要使用CRFPP包,必须安装python的依赖包,在下载源码解压后的 CRF++-0.58/python路径下运行以下命令python setup.py buildsudo python setup.py install(2)然后在Python 或者Ipython 里输入 import CR原创 2017-01-18 19:43:55 · 6577 阅读 · 1 评论 -
word2vec 入门(二)
word2vec要解决问题: 在神经网络中学习将word映射成连续(高维)向量,这样通过训练,就可以把对文本内容的处理简化为K维向量空间中向量运算,而向量空间上的相似度可以用来表示文本语义上的相似度。一般来说, word2vec输出的词向量可以被用来做很多 NLP 相关的工作,比如聚类、找同义词、词性分析等等。另外还有其向量的加法组合算法。官网上的例子是 :vector('Paris'原创 2017-01-19 15:49:31 · 1772 阅读 · 0 评论 -
word2vec 入门基础(一)
一、基本概念word2vec是Google在2013年开源的一个工具,核心思想是将词表征映射为对应的实数向量。目前采用的模型有一下两种CBOW(Continuous Bag-Of-Words,即连续的词袋模型)Skip-Gram项目链接:https://code.google.com/archive/p/word2vec二、背景知识词向量词向量就是用来将语言中的原创 2017-01-19 16:06:20 · 1052 阅读 · 0 评论 -
word2vec centos 安装
安装步骤1、下载word2vec,其目录结构如下:2、进入word2vec所在目录,使用make指令进行安装[plain] view plain copy make可以发现在安装的时候,会出现如下error:[plain] view plain copy gccwo原创 2017-01-19 16:07:44 · 1079 阅读 · 0 评论 -
word2vec 自己训练中文语料
(1) 准备文本可以用爬虫爬,也可以去下载,必须是全文本。(2)对数据进行分词处理因为英文但此只见是空格所以不需要分词,二中文需要分词,中文分词工具还是很多的,我自己常用的: - 中科院NLPIR - 哈工大LTP - 结巴分词注意:分词后保存的文件将会作为word2vec的输入文件进行训练(3)训练与实验python 需要先安装gensim,参考h原创 2017-01-20 11:16:53 · 13406 阅读 · 2 评论 -
jieba 分词 centos 安装,python使用
特点1,支持三种分词模式: a,精确模式,试图将句子最精确地切开,适合文本分析; b,全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义; c,搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。 2,支持繁体分词3,支持自定义词典安装1,Python 2.x 下的安装全自动安装原创 2017-01-20 11:19:30 · 4637 阅读 · 0 评论 -
textblob 使用中问题
(1)找不到数据文件错误Errors more Resource u'tokenizers/punkt/english.pickle' not found. Please use the NLTK Downloader to obtain the resource: >>> nltk.download() Searched in: - '/var/www/原创 2017-02-17 14:47:26 · 2524 阅读 · 0 评论 -
自然语言处理 textblog 安装使用
TextBlob是什么?TextBlob是一个用Python编写的开源的文本处理库。它可以用来执行很多自然语言处理的任务,比如,词性标注,名词性成分提取,情感分析,文本翻译,等等。你可以在官方文档阅读TextBlog的所有特性。github 地址:https://github.com/sloria/TextBlob/文档地址:https://textblob.readthe原创 2017-02-17 14:46:07 · 4505 阅读 · 2 评论 -
CRF 及CRF++ 安装与解释
CRF简介ConditionalRandomField:条件随机场,一种机器学习技术(模型)CRF由John Lafferty最早用于NLP技术领域,其在NLP技术领域中主要用于文本标注,并有多种应用场景,例如:分词(标注字的词位信息,由字构词)词性标注(标注分词的词性,例如:名词,动词,助词)命名实体识别(识别人名,地名,机构名,商品名等具有一定内在规律的实体名词)本文主原创 2017-01-18 19:18:32 · 18639 阅读 · 2 评论 -
语料库资源————(一)
国内可用免费语料库(凡没有标注不可用的链接均可用)(一) 国家语委1.国家语委现代汉语语料库http://www.cncorpus.org/现代汉语通用平衡语料库现在重新开放网络查询了。重开后的在线检索速度更快,功能更强,同时提供检索结果下载。现代汉语语料库在线提供免费检索的语料约2000万字,为分词和词性标注语料。2.古代汉语语料库http://www.cncorpu原创 2017-02-15 10:21:50 · 4177 阅读 · 0 评论 -
HMM(隐马尔可夫模型)
什么是熵(Entropy)简单来说,熵是表示物质系统状态的一种度量,用它老表征系统的无序程度。熵越大,系统越无序,意味着系统结构和运动的不确定和无规则;反之,,熵越小,系统越有序,意味着具有确定和有规则的运动状态。熵的中文意思是热量被温度除的商。负熵是物质系统有序化,组织化,复杂化状态的一种度量。熵最早来原于物理学. 德国物理学家鲁道夫·克劳修斯首次提出熵的概念,用来表示任何一种能量在空间原创 2017-01-17 10:39:00 · 1074 阅读 · 0 评论 -
HMM的(五个基本要素,三个假设,三个解决的问题)
了解HMM的人们,都知道HMM有五个基本要素,三个假设和解决的三个问题:首先看下HMM的五个基本要素:HMM是个五元组λ=( S, O , π,A,B)S:状态值集合,O:观察值集合,π:初始化概率,A:状态转移概率矩阵,B:给定状态下,观察值概率矩阵其次,回忆下HMM的三个假设:1、有限历史性假设,p(si|si-1,si-2,..原创 2017-02-13 15:56:21 · 14145 阅读 · 0 评论 -
HMM,MEMM,CRF模型的比较(转)
CRF,HMM(隐马模型),MEMM(最大熵隐马模型)都常用来做序列标注;HMM一个最大的缺点就是由于其输出独立性假设,导致其不能考虑上下文的特征,限制了特征的选择,而MEMM模型则解决了这一问题,可以任意的选择特征,但由于其在每一节点都要进行归一化,所以只能找到局部的最优值,同时也带来了标记偏见的问题(label bias),即凡是训练语料中未出现的情况全都忽略掉;而CRF则很好的解原创 2017-02-13 16:12:37 · 1188 阅读 · 0 评论 -
语料库资源————(三)
语料库文档资料国家语委现代汉语语料库介绍 ※下载次数:5481国家语委现代汉语语料库词类标记集 ※下载次数:3894国家语委现代汉标注语料库数据及使用说明 ※下载次数:4797在线语料库字词频数据现代汉语语料库词频表:在线现代语料库词频数据。 ※下载次数:10266现代汉语语料库分词类词频表:在线现代语料库带词类标注原创 2017-02-15 10:25:31 · 6539 阅读 · 0 评论 -
nltk 自己训练模型例子
NLTK是Python的一个自然语言处理的模块,其中实现了朴素贝叶斯分类算法。以下,就使用上一篇文中提到的数据,来应用这个模块实现朴素贝叶斯分类。NLTK的实现更加泛化,所以在应用到我们的数据上时需要做一点的转化。首先来看一下NLTK官方文档中给出的一个简单明了的例子,在了解这个例子之后,再设法将同样的模型应用到自己的数据集上。官方给出的例子是英文名中,在知道名字中最后一个字母原创 2017-02-17 15:06:37 · 3578 阅读 · 0 评论 -
textblob 自己训练模型
textblob 实际上是封装了以下nltk,几乎所有方法都是调用的nltk库。还是用上一篇的训练性别的例子。#coding=utf-8import random, nltkfrom nltk.corpus import namesfrom textblob.classifiers import NLTKClassifierfrom textblob import TextBlob原创 2017-02-17 16:27:18 · 2319 阅读 · 0 评论