
自然语言处理
Ice Cream_069
超越自我!
展开
-
命名实体识别(二)
命名实体识别问题可以看做是一个序列标注问题,传统的机器学习算法有三种方法做序列标注,分别是隐马尔科夫(HMM)模型,最大熵模型和条件随机场(CRF)模型。https://blog.youkuaiyun.com/Losteng/article/details/51037927HMM模型将标注看做马尔科夫链,一阶马尔科夫链针对相邻标注的关系进行建模,其中每个标记对应一个概率函数。HM是一种生成模型,定义了联合...转载 2019-09-06 12:15:22 · 1109 阅读 · 0 评论 -
论文《Neural Machine Translation by Jointly Learning to Align Translate》
#背景这篇论文是第一个在NLP中使用attention机制的工作。翻译任务是典型的seq2seq问题。那么,什么是seq2seq问题?简单的说就是,根据输入序列X,生成一个输出序列Y,序列的长度不固定。当输入序列X和输出序列Y是不同的语言时,就是机器翻译;当输入序列X是问题,输出序列Y是答案时,就是问答系统或者对话系统。根据输入和输出序列的特征,seq2seq主要应用在机器翻译、会话建模、文本摘...原创 2019-06-13 17:44:46 · 231 阅读 · 0 评论 -
文本分类练习记录
这周主要复习了一个开源项目,在cnew数据集上做文本分类,简单的记录一下,方便以后查看。1.首先是数据集的介绍:cnew是一个中文的新闻数据集,标签主要有[‘体育’,‘’]10个分类,分为训练集,验证集和测试集。数据预处理部分就是一般的自然语言处理的标准过程(没有使用到分词工具,是按照字符级进行训练的),包括生成字典,把words和labels转换成对应的id, 生成批数据。2.模型部分...原创 2019-06-13 17:42:15 · 336 阅读 · 0 评论 -
深度学习中的embedding和fintune的理解
在学习自然语言处理过程中,目前使用的神经网络模型中大都有embedding层。embedding层本质是一个降维的过程,在自然语言处理过程中,如果使用的是one-hot编码,则每个word的向量的shape是[vocab_size]。one-hot编码的缺点是:word的向量表示并不能反应两个字在语言空间中的距离。word2vec提出之后,就是将word的表示从稀疏的表示变为低维稠密空间向量的...原创 2019-06-13 17:33:57 · 3177 阅读 · 0 评论 -
命名实体识别(BiLSTM+CRF)(一)
Python中 sys.argv[]的用法简明解释python ast语法分析原创 2019-06-15 09:49:39 · 2031 阅读 · 0 评论 -
自然语言处理中常遇到的正则表达式
1. str.split()与re.split()的区别str.split():>>str="hello, world">>str.split()>> ['hello,', 'world']>>str.split(',')>> ['hello', ' world']re.split():re.split()方法可以使用正...原创 2019-06-13 17:37:19 · 599 阅读 · 0 评论 -
Transformer作为特征提取器
Transformer之前上图是经典的双向RNN模型,我们知道该模型是通过递归的方式运行,虽然适合对序列数据建模,但是缺点也很明显“它无法并行执行”也就无法利用GPU强大的并行能力,再加上各种门控机制,运行速度很慢。一般而言,编码器输出编码向量C作为解码器输入,但是由于编码向量C中所有的编码器输入值贡献相同,导致序列数据越长信息丢失越多。CNN网络相比RNN网络,它虽然可以并行执行,但是无...转载 2019-05-02 13:35:35 · 14901 阅读 · 0 评论