
自然语言处理
JQW_YNU
无
展开
-
第八章-数据提取
信息提取分块正则表达式分块探索文本语料库加缝隙开发与评估分块器简单评估和基准使用unigram标注器对名词短语分块训练基于分类器的分块器语言结构中的递归用级联分块器构建嵌套结构树遍历树命名实体识别关系抽取--------------------------------------------------------------------------------------------------...原创 2018-06-10 18:32:23 · 373 阅读 · 0 评论 -
第七章-文本聚类
加载影片数据数据清洗,获取html代码中的文本内容为每个项目生成索引的全集(在本例中它只是排名),以后我将使用这个得分载入 nltk 的英文停用词作为“stopwords”变量载入 nltk 的 SnowballStemmer 作为“stemmer”变量这里定义了一个分词器(tokenizer)和词干分析器(stemmer),它们会输出给定文本词干化后的词集合 # 首先分句,接着分词,而标点...原创 2018-06-10 18:29:29 · 626 阅读 · 1 评论 -
第六章 -文本分类
信息提取分块正则表达式分块探索文本语料库加缝隙开发与评估分块器简单评估和基准使用unigram标注器对名词短语分块训练基于分类器的分块器语言结构中的递归用级联分块器构建嵌套结构树遍历树命名实体识别关系抽取--------------------------------------------------------------------------------------------------...原创 2018-06-10 18:23:09 · 341 阅读 · 2 评论 -
第五章-词性标注
词性标注器解决的问题?标注语料库名词动词未简化标记搜索已标注的语料库自动标记默认标注器正则表达式标注器查询标注器N-gram标注一元模型分离训练与测试数据一般N-gram标注组合标注器储存标注器性能限制跨句子边界标注--------------------------------------------------------------------------------------------...原创 2018-06-10 13:08:47 · 540 阅读 · 0 评论 -
自然语言处理-聊天机器人
rule-based的玩法,以及几个角度的升级。首先,我们看一个最基础版本的rule-base机器人基本就是小学生级别的 问什么 答什么In [11]:import random# 打招呼greetings = ['hola', 'hello', 'hi', 'Hi', 'hey!','hey']# 回复打招呼random_greeting = random.choice(greetin...原创 2018-06-24 22:40:12 · 1181 阅读 · 0 评论 -
第四章-分词
解决问题? 分词精确模式搜索引擎模式添加词典调整词典关键词提取词性标注-------------------------------------------------------------------------------------------------------------------# -*- coding: utf-8 -*-from __future__ import unic...原创 2018-06-09 20:42:18 · 205 阅读 · 0 评论 -
第三章-处理原始文本
需要解决的问题?txt在线文档下载分词创建text根据内容定义开始与结尾HTML下载HTML解析过滤无关内容读取本地文件正则表达式查找ed结尾的词汇字谜:8个字母,第3个字母是j,第6个字母是t9宫格输入判断正则表达式中的+提取字符块查找词干搜索已分词文本规范化文本词干提取器词性归并分割链表与字符串字符串与格式排列------------------------------------------...原创 2018-06-09 17:31:13 · 351 阅读 · 0 评论 -
第二章-获取文本语料和词汇资源
解决的问题使用古腾堡语料库网络和聊天文本布朗语料库路透社语料库就职演讲语料库其他语料库载入自己的语料库条件频率分布条件与事件按文体计算词频绘制分布图和分布表使用双连词生成随机文本词典词汇列表语料库发音词典比较词典词汇工具同义词更多词汇关系语义相似度-------------------------------------------------实例代码-----------------------...原创 2018-06-09 14:48:37 · 644 阅读 · 0 评论 -
第一章-语言处理与Python
第一章解决的问题:搜索文本搜索单词搜索相似词搜索共同上下文词汇分布图自动生成文章计数词汇重复词密度关键词密度词链表连接追加索引切片索引从0开始,要注意简单统计频率分布细粒度的选择词词语搭配其他统计结果----------------------------------------------------------------------------------------------------...原创 2018-06-09 14:36:49 · 259 阅读 · 0 评论 -
自然语言处理-词向量与相关应用
计算机处理图像和文字的实质是在向量矩阵等基础上将其转化为数字,然后计算搜索的内容和库内容信息的匹配度文字--->数值向量算法案例:词编码:N-gram 权重:TF-IDF ---->word2vec---->sense2vec------------------------------------------------------------------------------...原创 2018-06-24 12:09:32 · 1544 阅读 · 0 评论 -
深度学习在自然语言处理中的运用
目录:introAuto-Encoder CNN4Text(卷积)RNNLSTM案例Reference ------------------------------------------------------------------------------------------------------------Intro 问题原型:Text--->Label 文本分类--->...原创 2018-06-23 20:47:07 · 619 阅读 · 0 评论 -
自然语言处理-事件研究
原创 2018-07-07 20:25:04 · 862 阅读 · 0 评论