
自然语言
文章平均质量分 82
lpty
走进科学
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
基于Skip-Thought的Sentence2Vec神经网络实现
一、前言1、Skip-Thought-Vector论文2、本文假设读者已了解Skip-Gram-Vector和RNN相关基础,以下文章可做参考:(1)RNN古诗词生成(2)Skip-Gram-Vector(3)LSTM/GRU门控机制二、实战1、数据处理(1)网络小说《神墓》,基于版权原因,请自行寻找数据源(2)先对特殊符号进行处理,将整本小说按行分割成一个列表原创 2017-09-26 18:58:52 · 7763 阅读 · 0 评论 -
依存分析:中文依存句法分析简介
一、句法分析句法分析是自然语言处理中的关键技术之一,其基本任务是确定句子的句法结构或者句子中词汇之间的依存关系。 主要包括两方面的内容,一是确定语言的语法体系,即对语言中合法的句子的语法结构给与形式化的定义;另一方面是句法分析技术,即根据给定的语法体系,自动推导出句子的句法结构,分析句子所包含的句法单位和这些句法单位之间的关系。二、语法体系句法分析需要遵循某一语法体系,根据该体系原创 2018-02-05 14:16:15 · 53945 阅读 · 11 评论 -
依存分析:基于序列标注的中文依存句法分析模型实现
一、前言1、中文依存句法分析二、实战1、数据源数据采用清华大学语义依存网络语料作为训练集,同时在开发集上进行测试。(1)语料预处理原语料库如下:1 坚决 坚决 a ad _ 2 方式 2 惩治 惩治 v v _ 0 核心成分 3 贪污 贪污 v v _ 7 限定 4 贿...原创 2018-02-13 14:20:34 · 8234 阅读 · 9 评论 -
信息抽取:关键词自动标注与自动摘要
一、关键词自动标注1、关键词关键词是指能够反映文本语料主题的词语或短语,是快速了解文档内容、把握主题的重要方式。2、概述关键词自动标注大概可以分为两大类,一为关键词分配,另一个为关键词提取。 关键词分配是从一个预先构建好的受控词表中推荐若干个词或者短语分配给文档作为关键词。 关键词提取是从文档内容中寻找并推荐关键词,而没有指定的词库。3、关键词提取关键词提取...原创 2018-02-08 16:38:32 · 8356 阅读 · 0 评论 -
问句识别:基于Xgboost的中文疑问句判断模型
一、前言关于Xgboost: xgboost是大规模并行boosted tree的工具,它是目前最快最好的开源boosted tree工具包,比常见的工具包快10倍以上。在数据科学方面,有大量kaggle选手选用它进行数据挖掘比赛,其中包括两个以上kaggle比赛的夺冠方案。在工业界规模方面,xgboost的分布式版本有广泛的可移植性,支持在YARN, MPI, Sungr...原创 2018-04-13 19:11:35 · 8148 阅读 · 14 评论 -
同义替换:哈工大同义词词林扩展版
一、前言《同义词词林》是梅家驹等人于1983年编纂而成,年代较为久远,对于目前的使用不太适合,哈工大实验室基于该词林进行扩展,完成了词林扩展版。 下载地址:https://www.ltp-cloud.com/download/二、使用说明扩展版同义词词林分为5层结构, 随着级别的递增,词义刻画越来越细,到了第五层,每个分类里词语数量已经不大,很多只有一个词语,已经不可再分,可...原创 2018-04-20 11:48:00 · 32280 阅读 · 10 评论 -
Text Matching as Image Recognition
一、概述MatchPyramid来自Liang Pang等在2016发表的一篇文章Text Matching as Image Recognition,大意为利用图像识别的方式进行文本匹配。二、思路对于文本匹配,基本思路如下述公式: 其中T为文本,函数θθθ代表将文本转换为对应的表示,函数FFF则代表两个文本表示之间的交互关系。 由侧重点不同可分为表示方法与交互方法,即注重θθ...原创 2018-06-11 11:48:51 · 4965 阅读 · 0 评论 -
Deep Sentence Embedding Using Long Short-Term Memory Networks
一、概述这种方式来自于论文Deep Sentence Embedding Using Long Short-Term Memory Networks,简单的来说应该是一种生成句向量的方法。二、思路论文中作者对比了很多相关工作,总而言之就LSTM-RNN这种方法相对而言有很大优势,这里就不列出来了。1、基本方法基本想法是将文本序列转化为向量,然后利用LSTM-RNN的结构进行...原创 2018-06-11 14:11:10 · 1666 阅读 · 0 评论 -
词向量:如何评价词向量的好坏
一、前言词向量、词嵌入或者称为词的分布式表示,区别于以往的独热表示,已经成为自然语言任务中的一个重要工具,对于词向量并没有直接的方法可以评价其质量,下面介绍几种间接的方法。二、评价方法对于词向量的评价更多还是应该考虑对实际任务的收益,脱离的实际任务很难确定A模型就一定比B好,毕竟词向量方法更多是一种工具。1、语义相关性任务这个任务用来评价词向量模型在两个词之间的语义相关性,如:...原创 2018-07-10 11:51:32 · 6914 阅读 · 1 评论 -
聚类:对聚类性能的评价
一、前言对于有监督的学习方法,我们可以找到许多评价指标,但是要评价无监督算法的质量,相对来说比较少有提及,正好最近在做一个相关的工作,稍微整理一下。二、方法下述提及方法均以k-means算法为基础, 不同聚类方法有不同的评价指标,这里说说k-means常用的两种方法1、肘部法则–Elbow Method我们知道k-means是以最小化样本与质点平方误差作为目标函数,将每个簇的质...原创 2018-07-10 21:06:00 · 7594 阅读 · 0 评论 -
新词发现:中文新词识别技术简介
一、前言新词识别,也可称为未登录词识别,严格来说,新词是指随时代发展而新出现或旧词新用的词,如:给力、山寨等;而未登录词是在词典中未存在的词,但实际使用中,两者并没有严格的区分,下文均以新词指代。 在之前的博文中提到,中文分词中存在两个问题,未登录词识别和歧义切分,具体在《统计自然语言处理》中提到,中文分词有98%的错误来自未登录词,相比之下未登录词识别比歧义切分更需要关注。二、概述...原创 2018-08-15 17:51:44 · 11521 阅读 · 1 评论 -
命名实体:中文命名实体识别简介
一、概念1、实体一切具有特定属性集合的物体都可以称为实体。2、命名实体一般包括三大类(实体类、时间类、数字类),七小类(人名、机构名、地名、时间、日期、货币和百分比)。3、命名实体识别过程(1)确定实体的边界,即确定哪些词属于实体。 (2)确定实体的类别,即确定实体属于人名或者机构名等。4、命名实体识别难点(1)各类命名实体没有严格的命名规范 (原创 2018-01-22 10:46:00 · 10064 阅读 · 0 评论 -
词性标注:基于MaxEnt的中文词性标注模型实现
一、前言1、中文词性标注 2、最大熵模型二、数据源本文使用数据源未1988年的人民日报标注语料,手工进行处理,去除一些不符合标注规范(word/pos)的词语,词性标注见中文词性标注一文。三、实战1、特征提取最大熵模型与一般机器学习算法不同之处在于特征是对x,y的联合分布提取,而不是只对x进行特征提取。 这是简单的设定几个模板:前一个词与前词词性当前词与当前词词性后一个词与当前词词性前一个原创 2018-01-02 10:51:59 · 2998 阅读 · 14 评论 -
词向量:基于Skip-Gram的Word2Vec神经网络实现
一、前言1、理解Word2Vec之Skip-Gram模型二、实战1、数据源:cvpr2016_flowers,国内下载比较麻烦,数据量也不多,建议用其它数据2、数据处理class Text: def __init__(self): self.data_name = 'text_c10' self.file_list = self._ge原创 2017-09-13 11:42:09 · 3204 阅读 · 1 评论 -
基于RNN的中文古诗词生成神经网络实现
一、前言1、图解RNN2、Tensorflow中RNN实现的正确打开方式二、实战1、训练数据处理(1)文字转为向量 def _get_poetry(self): with open(self.poetry_file, "r", encoding='utf-8') as f: poetry_list = [line for line原创 2017-08-29 19:43:19 · 14051 阅读 · 22 评论 -
fasttext的简单介绍
一、前言fasttext是Facebook AI Reserch在16年开源的一个词向量及文本分类工具。在模型架构上跟word2vec非常相似,毕竟作者都是Tomas Mikolov。其实从另一种角度理解,fasttext算是word2vec的一种衍生模型。fasttext的两篇基础论文,更像是提出了一些技巧,来更好的训练词向量和进行分类。关于word2vec的可以参考:对word2v原创 2017-12-12 20:06:02 · 7243 阅读 · 0 评论 -
情感极性:基于fasttext的情感极性判断模型实现
一、前言本模型主要基于京东评论数据进行训练,相关参考如下:1、什么是fasttext?2、什么是情感极性?3、中文分词与jieba4、数据来源二、实战1、语料处理语料处理方面,使用jieba分词,添加自定义词典进行分词: def __load_user_dict(cls): """ 加载用户词典 """原创 2017-12-14 16:33:10 · 5533 阅读 · 4 评论 -
分词:基于HMM的中文分词模型实现
一、前言本文主要是实现了一个纯粹的HMM中文分词模型,关于中文分词可以参考:中文分词。分词的基本思想与该文基本一致,请确保已经了解分词的基本知识。二、实战1、语料源语料来源于Bakeoff 2005的主页,这里选用了icwb2-data.rar语料,大概介绍如下:* /icwb2-data.rar/training/msr_training.txt 用以训练HMM,其中原创 2017-12-22 10:33:36 · 8285 阅读 · 4 评论 -
情感极性:关于中文情感分类的知识
一、文本分类1、什么是文本分类?文本分类,就是在预定义的分类体系下,根据文本的特征(内容或属性),将给定文本与一个或多个类别相关联的过程。2、文本分类的具体步骤?(1)构建分类类别体系(2)获取带有类别标签的文本(3)文本的特征选择及权重计算(4)分类器的选择与训练(5)文本的分类应用3、类别体系一般的文本分类基于文本内容,将文本自动划分为政治、经济、军事、原创 2017-12-06 16:55:36 · 7595 阅读 · 0 评论 -
分词:浅谈中文分词与jieba源码
一、前言1、什么是中文分词?中文文本。从形式上看是由汉字、标点符号等组成的一个字符串。由字组成词,再组成句子、文章等。那么分词,就是按照一定的规则把字符串重新组合成词序列的过程。2、为什么要分词?(1)在中文里面,词是最小的能够独立活动的有意义的语言成分(2)英文中单词以空格作为自然分界,虽然也有短语划分的问题。但中文词没有一个形式上的分界,相对而言难度大了许多(3)分词作原创 2017-12-01 20:56:14 · 3529 阅读 · 0 评论 -
词性标注:中文词性标注简介
一、概述1、什么是词性?词性(part-of-speech)是词汇基本的语法属性,通常也称为词性。2、什么是词性标注?词性标注(part-of-speech tagging),又称为词类标注或者简称标注,是指为分词结果中的每个单词标注一个正确的词性的程序,也即确定每个词是名词、动词、形容词或者其他词性的过程。3、为什么要标注?词性标注是很多NLP任务的预处理步骤,如句法分析...原创 2017-12-25 16:31:04 · 36689 阅读 · 2 评论 -
词向量:语言模型
一、统计语言模型1、什么是统计语言模型?一个语言模型通常构建为字符串s的概率分布p(s),这里的p(s)实际上反映的是s作为一个句子出现的概率。这里的概率指的是组成字符串的这个组合,在训练语料中出现的似然,与句子是否合乎语法无关。假设训练语料来自于人类的语言,那么可以认为这个概率是的是一句话是否是人话的概率。2、怎么建立统计语言模型?对于一个由T个词按顺序构成的句子,p(s)实原创 2017-12-07 21:44:55 · 3249 阅读 · 0 评论 -
词向量:对word2vec的理解
一、词向量在自然语言处理中,需要把自然语言转化为计算机可以理解的形式,一般采用向量空间模型(VSM)进行表示,在这里就是词向量。1、one-hot词向量在中文处理中,将分词的结果经过降噪等预处理后,选择出来的特征在进行权重计算时,采用布尔权重,就能够得到one-hot词向量。从表现形式上来看,向量的长度是词典的大小V,同时它的分量只有一个是1,其他全是0,1的位置对应词在词典中的索原创 2017-12-11 16:07:21 · 11049 阅读 · 0 评论 -
从Word Embedding到Bert模型—自然语言处理中的预训练技术发展史
原文:张俊林–从Word Embedding到Bert模型—自然语言处理中的预训练技术发展史引言Bert最近很火,应该是最近最火爆的AI进展,网上的评价很高,那么Bert值得这么高的评价吗?我个人判断是值得。那为什么会有这么高的评价呢?是因为它有重大的理论或者模型创新吗?其实并没有,从模型创新角度看一般,创新不算大。但是架不住效果太好了,基本刷新了很多NLP的任务的最好性能,有些任务还被刷爆...转载 2019-01-11 19:55:50 · 897 阅读 · 0 评论