- 博客(41)
- 收藏
- 关注
转载 探索分类模型中加入词性和句法特征
最近一直在做的意见解释挖掘任务,尝试加入词性特征和句法特征来提高性能。一、方法调研了一下大概可以有3种方法在分类模型中加入句法特征:1. 直接使用stanford nlp工具得到每个词的父亲结点信息作为该词的句法特征加入分类模型。2. 用treelstm训练树型结构模型,得到树中每个结点的信息,获取每个词在树中的位置信息作为句法特征。这种方法与方法1相比,不仅包含了父亲结...
2018-06-06 10:36:00
649
转载 加入词性特征的词向量
最近在做的分词词性标注联合训练,在深度学习模型中,通常词向量带给模型性能的影响是很大的,所以我们希望在训练词向量的过程中加入词性特征,来进一步提升模型性能。那怎么训练带有词性特征的词向量呢,接下来我将把训练过程记录下来分享给大家。转载于:https://www.cnblogs.com/Joyce-song94/p/9132762.html...
2018-06-04 12:45:00
1163
转载 关于处理数据不平衡问题的一些探索
一、背景:最近在做意见解释分类任务,数据集中出现了严重的类别不均衡的问题,类别1的数目大概只有类别2的七分之一,类别2的数目大概占全部数据集的一大半了。在这种情况下,模型训练容易忽视小类而偏向大类,而小类别信息对我们来说也是非常重要的,我们也希望能提取更多的小类的特征,提高小类别的准确率。所以如何处理数据类别的不平衡问题,提高模型的宏平均值,也是我们需要重点关注的问题。二、...
2018-06-03 08:50:00
358
转载 python正则表达式-re模块
目录:一、正则函数二、re模块调用三、贪婪模式四、分组五、正则表达式修饰符六、正则表达式模式七、常见的正则表达式导读: 想要使用python的正则表达式功能就需要调用re模块,re模块为高级字符串处理提供了正则表达式工具。模块中提供了不少有用的函数,比如:compile函数、match函数、search函数、findall函数、finditer...
2018-05-03 18:39:00
276
转载 分类和抽取的联合模型
最近在做意见解释挖掘项目中解释性意见分类任务,尝试将解释性意见分类和意见解释抽取任务联合训练,在这里对最近的工作做一下整理。因为是实验室的自然科学基金项目中的子任务,项目数据暂时还未公开,在这里就不展开介绍具体任务了。一、思路解释性意见句的类别是依据意见句中的意见解释的内容进行定义的,那么在对句子进行分类之前,如果模型获取到了意见句中的意见解释信息,是否有助于模型进行分类呢...
2018-02-28 16:01:00
321
转载 实验心得
1. 减少除法,乘法,影响精度(BiaffineDParser在解决set batch size问题时也注意到了这个问题)所以计算f值时,推荐使用下面的公式,这样也可以一眼看出F值大小,如果在c、g相同的情况下,即对于同一个句子,p越大f值越小。2. 路径问题,如何跨目录读取文件转载于:https://www.cnblogs.com/Joyce-song94/p...
2018-01-10 08:56:00
192
转载 Django学习笔记2:处理表单
1.HTTP请求HTTP协议以"请求-回复"的方式工作。客户发送请求时,可以在请求中附加数据。服务器通过解析请求,就可以获得客户传来的数据,并根据URL来提供特定的服务。(1)GET方法在项目中HelloWorld/HelloWorld下创建一个 search.py 文件,用于接收用户的请求 1 from django.http import HttpRespon...
2017-12-27 23:30:00
168
转载 初学Django:创建第一个项目+使用模板
1. 创建一个项目之前在Anaconda 3里面用命令行安装了Django之后,有了可用的管理工具django-admin.py(1)用django.admin.py来创建一个项目Helloworld(2)查看项目的目录结构因为是windows环境,所以只展示了一层。(3)在目录下输入命令启动服务器启动正常(4)视图和URL配置在先...
2017-12-26 23:30:00
192
转载 Matplotlib画图
1. Matplotlib输出中文显示问题解决方法:加上两行代码就行from pylab import mpl mpl.rcParams[‘font.sans-serif] = [‘SimHei’]转载于:https://www.cnblogs.com/Joyce-song94/p/8094754.html...
2017-12-23 23:00:00
144
转载 从感知机到支持向量机—学习笔记
step 1用高斯分布生成两类点 1 class Point3: 2 def __init__(self): 3 self.x = random.gauss(50, 10) 4 self.y = random.gauss(50, 10) 5 6 self.label = -1 7 ...
2017-09-26 07:54:00
172
转载 gradients的一些注意点
Each variable has a [.grad_fn] attribute that references a Function that has created the Variable(except for Variables created by the user their grad_fn is None).out.backward()=out.backward(tor...
2017-09-05 19:26:00
332
转载 模型搭建练习2_实现nn模块、optim、two_layer、dynamic_net
用variable实现nn.module 1 import torch 2 from torch.autograd import Variable 3 4 N, D_in, H, D_out = 64, 1000, 100, 10 5 6 x = Variable(torch.randn(N, D_in)) 7 y = Variable(torch.r...
2017-09-05 10:40:00
217
转载 学习记录
在学习浏览网页test过程中遇到的一些需要研究一下才能看懂的函数,在这里做一下记录,供以后翻看学习1. maximum() 1 import numpy as np 2 N, D_in, H, D_out = 64, 1000, 100, 10 3 x = np.random.randn(N, D_in) # (64, 1000) 4 y = np.rand...
2017-09-04 20:40:00
165
转载 模型搭建练习1_用numpy和tensor、variable实现前后向传播、实现激活函数
用numpy实现搭建一个简单的forward和backward 1 import numpy as np 2 N, D_in, H, D_out = 64, 1000, 100, 10 3 x = np.random.randn(N, D_in) # (64, 1000) 4 y = np.random.randn(N, D_out) # (64, ...
2017-09-04 17:20:00
157
转载 前沿技术讲习班学习笔记2-车老师
Outline:(1) Graph-based Methods(2) Transition-based Methods(3) Neural Graph-based Methods(4) Neural Transition-based Methods(5) ApplicationsPoints:1. Fundamental NLP Pipeline: ra...
2017-08-29 21:45:00
303
转载 机器学习优化问题-经验风险、期望风险、结构风险
要区分这三个概念,需要先讲一下损失函数L(Y,f(x))的概念。损失函数:针对单个具体样本,表示模型预测值与真实样本值之间的差距。损失函数越小,说明模型对于该样本预测越准确。常见损失函数有0-1损失函数、平方损失函数、绝对损失函数、对数损失函数(对数似然损失函数)。经验风险:对所有训练样本都求一次损失函数,再累加求平均。即,模型f(x)对训练样本中所有样本的预测能力。...
2017-08-28 15:04:00
698
转载 前沿技术讲习班学习笔记1-邱锡鹏老师
大纲:(1)概述:机器学习概述、感知器、应用(2)基础模型:前馈神经网络、卷积神经网络、循环神经网络、网络正则化与优化、应用(3)进阶模型:注意力机制与外部记忆、无监督学习、概率图模型、深度生成模型、深度强化学习、模型独立的学习方式整理的知识点:1. 机器学习历史:1950~1965(规则+知识)、1970~1985(专家系统)、1985~2005(统计浅层学习...
2017-08-28 09:24:00
294
转载 调参tips
对于一个模型,都可以从以下几个方面进行调参:1. 对weight和bias进行初始化(效果很好,一般都可以提升1-2%)Point 1 (CNN):1 for conv in self.convs1:2 init.xavier_normal(conv.weight, gain=np.sqrt(2.0)) # 对weight进行正态分布初始化3 # ...
2017-08-11 20:04:00
227
转载 weight initilzation
1. pytorch提供接口method 1 torch.nn.init里面有很多初始化分布1 import torch.nn.init as init2 3 self.conv1 = nn.Conv2d(3, 20, 5, stride=1, bias=True)4 init.xavier_uniform(self.conv1.weight, gain=np....
2017-08-09 15:08:00
150
转载 PyTorch 实现kmax-pooling
max-pooling有很多种实现方式(1)kmax-pooling1 import torch2 def kmax_pooling(x, dim, k):3 index = x.topk(k, dim=dim)[1].sort(dim=dim)[0]4 return x.gather(dim, index)5 x = torch.rand(4...
2017-08-03 09:13:00
1583
转载 第四期coding_group笔记_用CRF实现分词-词性标注
一、背景知识1.1 什么是分词? NLP的基础任务分为三个部分,词法分析、句法分析和语义分析,其中词法分析中有一种方法叫Tokenization,对汉字以字为单位进行处理叫做分词。 Example : 我 去 北 京 S S B E 注:S代表一个单独词,B代表一个词的开始,E表示一个词的结束(北京是一个词...
2017-07-31 11:23:00
447
转载 调参记录
1. CNN双通道 + dropout=0.5 + 100dim79.5%2. CNN双通道 + dropout=0.7 + 300dim80.34%3. BiLSTM + 200hidden + 100dim + dropout=0.479.6%4. embedding(300,modify) + dropout=0.5 + Bi-LSTM(dropout=0....
2017-07-28 23:41:00
161
转载 PyTorch学习问题记录
Q1:def train() 中的model.train()的作用是什么?为什么要写?A1:class torch.nn.Module中 train(mode=True) Sets the module in training mode. This has any effect only on modules such as Dropout or BatchNorm. 参...
2017-07-28 19:14:00
154
转载 Deep learning with PyTorch: A 60 minute blitz _note(1) Tensors
Tensors1. construst matrix2. addition3. slice 1 from __future__ import print_function 2 import torch 3 4 # construst a 5*3 matrix. 5 # method 1 6 # x = torch.LongTensor(5, 3)...
2017-07-28 09:45:00
164
转载 PyTorch学习笔记之Variable_and_function_cat
application 1 1 from torch.autograd import Variable 2 import torch 3 b = Variable(torch.FloatTensor([64, 100, 43])) 4 print(b) 5 ''' 6 Variable containing: 7 64 8 100 9 4...
2017-07-23 15:50:00
143
转载 PyTorch学习笔记之DataLoaders
A DataLoader wraps a Dataset and provides minibatching, shuffling, multithreading, for you。 1 import torch 2 from torch.autograd import Variable 3 import torch.nn as nn 4 from torch.uti...
2017-07-21 23:56:00
186
转载 PyTorch学习笔记之nn的简单实例
method 1 1 import torch 2 from torch.autograd import Variable 3 4 N, D_in, H, D_out = 64, 1000, 100, 10 5 x = Variable(torch.randn(N, D_in)) 6 y = Variable(torch.randn(N, D_out), r...
2017-07-21 23:37:00
265
转载 PyTorch学习笔记之Tensors 2
Tensors的一些应用 1 ''' 2 Tensors和numpy中的ndarrays较为相似, 因此Tensor也能够使用GPU来加速运算 3 ''' 4 # from _future_ import print_function 5 import torch 6 x = torch.Tensor(5, 3) # 构造一个未初始化的5*3的矩...
2017-07-21 20:46:00
122
转载 PyTorch学习笔记之Tensors
PyTorch Tensors are just like numpy arrays, but they can run on GPU.No built-in notion of computational graph, or gradients, or deep learning.Here we fit a two-layer net using PyTorch Tensors:...
2017-07-21 17:20:00
201
转载 PyTorch学习笔记之计算图
1. **args, **kwargs的区别 1 def build_vocab(self, *args, **kwargs): 2 counter = Counter() 3 sources = [] 4 for arg in args: 5 if isinstance(arg, D...
2017-07-21 16:17:00
228
转载 PyTorch学习笔记之CBOW模型实践
1 import torch 2 from torch import nn, optim 3 from torch.autograd import Variable 4 import torch.nn.functional as F 5 6 CONTEXT_SIZE = 2 # 2 words to the left, 2 to the right 7 ...
2017-07-13 10:21:00
328
转载 PyTorch学习笔记之n-gram模型实现
1 import torch 2 import torch.nn as nn 3 from torch.autograd import Variable 4 import torch.nn.functional as F 5 import torch.optim as optim 6 7 CONTEXT_SIZE = 2 # the ...
2017-07-13 09:53:00
678
转载 PyTorch学习笔记之初识word_embedding
1 import torch 2 import torch.nn as nn 3 from torch.autograd import Variable 4 5 word2id = {'hello': 0, 'world': 1} 6 # you have 2 words, and then need 5 dim each word 7 embeds = ...
2017-07-13 08:43:00
232
转载 7月3日-9日_周报
一、情感分类方面为了提高CNN情感分类的准确率,对CNN模型的输入层进行改进,加入word2vec。各个方案基于这样的前提:a. 经过上个星期调试,当KERNEL_NUM=200, KERNEL_SIZES=[3, 4, 5, 6, 7] 时准确率最高,所以下面所有改进都是基于此结论的基础上的,达到的最高准确率。b. 所用数据是老师提供的统一数据,2分类,训练、开发、测试...
2017-07-11 22:43:00
137
转载 python学习笔记之heapq内置模块
heapq内置模块位于./Anaconda3/Lib/heapq.py,提供基于堆的优先排序算法堆的逻辑结构就是完全二叉树,并且二叉树中父节点的值小于等于该节点的所有子节点的值。这种实现可以使用 heap[k] <= heap[2k+1] 并且 heap[k] <= heap[2k+2] (其中 k 为索引,从 0 开始计数)的形式体现,对于堆来说,最小元素即为根元素 h...
2017-07-11 10:48:00
266
转载 python学习笔记1-numpy/enumerate
1. np.size和np.prod1 import numpy as np2 x = np.zeros((3, 5, 2), dtype=np.complex128)3 # ndarray.size is the number of elements in the array4 # equivalent to np.prod(a.shape)5 print(x...
2017-07-09 17:15:00
197
转载 PyTorch框架+Python 3面向对象编程学习笔记
一、CNN情感分类中的面向对象部分sparse.py1 super(Embedding, self).__init__()表示需要父类初始化,即要运行父类的_init_(),如果没有这个,则要自定义初始化1 self.weight = Parameter(torch.Tensor(num_embeddings, embedding_dim))Para...
2017-07-05 02:22:00
307
转载 关键字抽取论文阅读笔记
刘知远老师博士论文-基于文档主题结构的关键词抽取方法研究一、研究背景和论文工作介绍 关键词抽取分为两步:选取候选关键词和从候选集合中推荐关键词。1.1. 选取候选关键词关键词:单个词或者多个单词组成的短语。抽取难点:如何正确判定候选关键词的边界。(在英文关键词抽取中,一般选N元词串,计算N元词串内部联系的紧密程度来判断是否是一个有独立语义的短语。类比搭配抽取、多词表...
2017-07-05 01:06:00
313
转载 python 正则表达式学习笔记
re 模块使 Python 语言拥有全部的正则表达式功能。compile 函数根据一个模式字符串和可选的标志参数生成一个正则表达式对象。该对象拥有一系列方法用于正则表达式匹配和替换。re.match(pattern, string, flags=0) # 匹配成功返回一个匹配的对象,否则返回none1 import re2 print(re.match('ww...
2017-07-03 15:18:00
133
转载 6月末的总结
一、 情感分类方面:1. 实践:关于CNN的理论知识,查看了几篇博客和论文,写了几个随笔笔记。 感想:对于网上的博文要带着批判的态度对待,不可尽信,要实践。对知识的了解要透彻,最好能实践。2. 实践:关于PyTorch的实践,github关注了几个项目,主要是阅读,自己练习了一部分,比如python装了gensim库,练习了简单的word2vec的例子。 感想...
2017-07-03 14:56:00
135
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人