
自然语言处理
Rise*3
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
自然语言处理(1)——词汇标注
如何进行词汇标注呢?首先进行数据预处理,例如如果给定的是句子,先要对句子进行分割;最简单的标注器,可以给定词汇使用得最频繁的词性作为标注器中该词汇的词性,但是由于词汇存在二义性,使得这种标注准确度受限,通过上下文语境,可以在一定程度上解决这个问题,可以采用N-gram标注器,此外,Brill标注器具有修正功能。为了使python的中文注释正确,必须在开头加上一句代码# -*- codin...原创 2018-12-12 17:17:43 · 954 阅读 · 0 评论 -
自然语言处理(2)——学习分类文本之有监督分类
文档分类,其实就是根据文档的特征,统计每一个文档中的特征集,从而进行分类这些特征的选择,可以选择高频词,词的后缀,也可以根据上下文语境,可以结合这个词和这个词的上一个词进行特征提取,还可以使用连续分类器,既考虑已知的标注集,又根据该集合预测新的标注,并加入到历史标注集中,有种半监督的意味。有监督分类,用到了带正确标注的训练集"""过拟合问题。完善特征集办法:错误分析;建立开发集...原创 2018-12-13 22:45:23 · 1854 阅读 · 0 评论 -
自然语言处理(3)——可用于自动生成分类模型的机器学习方法
可用于自动生成分类模型的三种机器学习方法:决策树、朴素贝叶斯分类器和最大熵分类器。#决策树"""决策树可以自动地构建树结构的流程图,用于为输入变量值基于它们的特征加标签,虽然它们易于解释,但不适合处理特性值在决定合适标签过程中相互影响的情况。"""#朴素贝叶斯模型(生成式)"""在朴素贝叶斯分类器中,每个特征都得到发言权,来确定哪个标签应该被分配到一个给定的输入值。为一个输入...原创 2018-12-14 17:22:33 · 588 阅读 · 0 评论 -
自然语言处理(4)——从文本中提取信息
信息提取系统的流程。这个流程图中的左边部分其实就是前面几节提到的内容,当我们拿到一个字符串文本,要先对数据进行预处理,即先对句子进行分割,然后再对句子进行分词,接着给分词进行词性标注,再接着就是这节内容提到的实体识别,实体识别其实就是对已标注的词汇进行分块,分块后就可以提取关系了,确定临近实体之间是否有某种指定的关系。1. 具体分块是怎么实现的呢?分块可以即根据每个词的词性标注,确...原创 2018-12-16 00:38:48 · 4673 阅读 · 0 评论 -
深度学习(6)——循环神经网络RNN+LSTM
目录一、概念1.1 RNN1.2 LSTM(long short-term memory)二、RNN变种三、自然语言建模四、时间序列预测一、概念1.1 RNN主要用来处理和预测序列数据。特点:隐藏层的输入不仅包括输入层的输出,还包括上一时刻隐藏层的输出,即当前时刻的状态是根据上一时刻的状态和当前的输入共同决定的。前向传播计算过程 实现过程...原创 2019-01-06 21:42:09 · 1480 阅读 · 0 评论 -
图灵机器人
# -*- coding: utf-8 -*-import itchatimport requests#获取来自机器人API的回复消息def get_response(msg): apiUrl='http://www.tuling123.com/openapi/api' data={'key':'08ee2d65b6d94dd2808c71583787f779', 'info'...原创 2019-01-20 23:37:44 · 1067 阅读 · 0 评论