
NLP
liuwei1206
PhD student.
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
文本分类学习链接
文本分类入门链接:http://www.blogjava.net/zhenandaci/category/31868.html?Show=All机器学习性能评价指标:http://charleshm.github.io/2016/03/Model-Performance/各种自然语言处理工具词性列表英文简称:https://www.biaodianfu.com/pos-tagging-se...原创 2017-05-17 16:32:02 · 570 阅读 · 0 评论 -
Scikit-learn中使用SVM对文本进行分类
(一)背景 本人最近弄了两个和svm算法有关的大作业,一个是处理手写数字识别的,另外一个是文本分类的。最开始,我用libsvm提供的包进行分类。但是总是会出现分成一类的情况。有时候数据归一化之后,就不会分成一类,能够正常分类;但有时候源数据能正常分类,而归一化数据之后却会分成只有一类的情况。 这让我感到很苦恼,并且了解了一下SVM算法,但是仍然不知道问题所在。后来在大神指点下,使用机器...原创 2017-09-14 20:59:40 · 7166 阅读 · 0 评论 -
word2vec源码详解
已经看了很久的word2vec,但是发现了很多不同版本的解释,再加上原始论文没有提到太多的细节,所以打算直接看一遍源码,一方面可以加深自己理解;另一方面,以后也可以做适当的改进!源码分析请参考本人github地址:https://github.com/liuwei1206/word2vec 先给出源码中执行的流程图,按照流程图对代码进行详细的解读,流程图如下:训练部分的流程图如下:讲解将会按照这个训练过程来!(一)训练参数注意,这些参数都是全局参数,包括以下参数:size: 对应代码原创 2018-05-09 12:00:11 · 15521 阅读 · 9 评论 -
ELMo代码详解(一):数据准备
ELMo代码解读笔记1.数据准备 数据准备包括:1.生成word的词汇表类; 2.生成字符的词汇表类; 3.以word-ids作为输入的训练batch生成类; 4.以char-ids作为输入的训练batch生成类; 5.生成语言模型输入的数据集类1.1 word词汇表类(Vocabulary) 根据一个词汇表文件,生成word和索引的相互对应关系,即_id_to_w...原创 2018-06-28 10:22:13 · 10969 阅读 · 10 评论 -
ELMo代码详解(二)
ELMo代码解读笔记2:模型代码2.模型代码介绍 模型代码主要包括以下几个部分:1.构建word embedding; 2.构建word_char embedding的准备; 3.语言模型介绍(双向lstm模型)。2.1 构建word embedding 注意:在ELMo语言模型中,无论是word embedding还是word_char embedding都是...原创 2018-07-24 13:53:40 · 11392 阅读 · 13 评论 -
线性条件随机场代码解读
NER中CRF是必不可少的环节,特地看了一遍CRF相关理论以及allennlp中CRF的代码,特在这里笔记记录下来!1.线性CRF简介1.1一般形式 关于线性条件随机场的详细介绍,请参考李航老师的《统计学习方法》或者这里,这里仅仅给出一般的公式定义。 设P(Y|X)P(Y|X)P(Y|X)为线性链条件随机场,则在随机变量XXX取值为xxx的条件下,随机变量YYY取值...原创 2018-09-03 21:20:56 · 1795 阅读 · 4 评论 -
pytorch中获取指定位置元素
这段代码的应用场景是:某个batch的sentence,有的经过了padding操作,如果获取每句话中实际的最后一个单词。A = torch.Tensor([[[2, 3, 1], [1, 4, 0], [1, 0, 0]], [[2, 2, 0], [2, 0, 0], [3, 1, 4]]])print(A.size())B = torch.Tensor([[3, 2, 1], [...原创 2018-10-31 21:28:44 · 19884 阅读 · 0 评论 -
从HMM到MEMM再到CRF
1. HMM HMM是一种生成式模型,它的理论基础是朴素贝叶斯,本质上就类似于我们将朴素贝叶斯在单样本分类问题上的应用推广到序列样本分类问题上。在单样本朴素贝叶斯分类任务中:P(y∣x)=P(x∣y)∗P(y)P(x)P(y|x)=\frac{P(x|y)*P(y)}{P(x)}P(y∣x)=P(x)P(x∣y)∗P(y)扩展到序列化样本分类问题任务中为:P(y1n∣x1n)=P(...原创 2019-04-04 14:45:21 · 4144 阅读 · 0 评论