
深度学习笔记
文章平均质量分 69
TianHongZXY
这个作者很懒,什么都没留下…
展开
-
浅谈L2正则化为什么有效
L2正则化为什么有效无论是学过机器学习还是深度学习的同学一定知道正则化可以缓解过拟合,最常用的就是L2正则化,即在损失函数J(θ)J(\theta)J(θ)上加上参数的L2范数λ∣∣θ∣∣2\lambda||\theta||_{2}λ∣∣θ∣∣2,不过一般也不开根号了,也就是直接加λ∑iθi2\lambda\sum\limits_{i}\theta_{i}^{2}λi∑θi2,λ\lambdaλ是正则化因子,它的大小决定了你有多想让参数向0靠近。如果被问到缓解过拟合的方法,那么L2正则化肯定是要知原创 2020-06-09 18:19:01 · 1072 阅读 · 0 评论 -
深度知识追踪入门
背景介绍知识追踪(Knowledge Tracing)是根据学生过去的答题情况对学生的知识掌握情况进行建模,从而得到学生当前知识状态表示的一种技术,早期的知识追踪模型都是依赖于一阶马尔科夫模型,例如贝叶斯知识追踪(Bayesian Knowledge Tracing)。将深度学习的方法引入知识追踪最早出现于发表在NeurIPS 2015上的一篇论文《Deep Knowledge Tracing》...原创 2020-04-24 18:27:02 · 2875 阅读 · 0 评论 -
反讽检测(Sarcasm Detection)
最近在看反讽检测的文章,才读了几篇,写一下小结,看得还是挺费劲,也挺懵的,写个阅读笔记,让自己好好重新理解一下。Towards Multimodal Sarcasm Detection第一篇读的是Towards Multimodal Sarcasm Detection (An Obviously Perfect Paper) ,标题就很有意思,斜体的Obviously就是在这就带有自嘲,反语的...原创 2019-12-08 12:07:42 · 4928 阅读 · 3 评论 -
使用pytorch和torchtext进行文本分类
如何使用pytorch进行文本分类文本分类是NLP领域的较为容易的入门问题,本文记录我自己在做文本分类任务以及复现相关论文时的基本流程,绝大部分操作都使用了torch和torchtext两个库。1. 文本数据预处理首先数据存储在三个csv文件中,分别是train.csv,valid.csv,test.csv,第一列存储的是文本数据,例如情感分类问题经常是用户的评论review,例如imdb或...原创 2019-10-27 21:51:34 · 5363 阅读 · 12 评论 -
利用pytorch和torchtext预处理数据
pytorch广播矩阵当自定义矩阵来和一个 batch 的数据 X 做乘法的时候,设X.shape = [batch_size, dimx, dimy],那么自定义的矩阵 W.shape = [input_dim, output_dim]只需要input_dim==dimy就可以使用torch.matmul(X, W),pytorch在计算的时候会自动广播矩阵W,但计算完 W.shape 不会...原创 2019-07-10 17:15:00 · 3488 阅读 · 2 评论 -
如何将cifar-10数据集的图片转化为227*227像素以供Alexnet训练
下载cifar-10数据集官网地址:http://www.cs.toronto.edu/~kriz/cifar.html这是从官网下载好的python版cifar-10数据集加载cifar-10数据集def load_file(cifar): '''加载cifar数据集''' import pickle with open('D:\cifar-10-ba...原创 2018-10-09 18:00:53 · 11210 阅读 · 3 评论 -
线性回归(logistic regression)
单变量线性回归本文以单变量线性回归为例,且变量为一次方,多变量只需要增加变量x1,x2······的个数,变量x也可以有更高的次方。h代表假设函数theta代表参数x代表输入变量y代表标签J代表损失函数目标即为通过改变参数theta的值,最小化损失函数,即要使假设函数h的输出尽可能接近标签y。例如预测房价问题,令输入x为房子的尺寸(m^2),y为已知的对应x的房价(万元),则要通...原创 2018-10-03 13:49:48 · 405 阅读 · 0 评论 -
评估机器学习项目性能的指标
单一数字评估指标(Single number evaluation metric)查全率(recall)与查准率(precision)评估机器学习项目的性能的指标最常用的有两个,分别是查全率和查准率。假如你做了两个识别猫的分类器A和B。当分类器识别图片为猫,记为positive,识别为其他,记为negative。查全率是指,对于所有的真猫图片,你的分类器正确识别出了多少百分比。 ...原创 2018-09-15 17:39:13 · 443 阅读 · 0 评论 -
正交化(Orthogonalization)
正交化(Orthogonalization)机器学习中可以调整的参数非常多,比如电视机上的按钮,有调整图像高度的旋钮,调整宽度的旋钮,以及调亮度,对比度等各种旋钮,互不影响。在旋每一个旋钮时,你都清楚的知道自己在调整什么,会得到什么样的效果,调整高度并不会影响到亮度,反之亦然,所以只要根据当前的情况,例如图像偏窄,亮度偏暗,你明确地知道应该调整哪两个旋钮,往哪个方向旋转,直到得到你满意的效...原创 2018-09-15 17:13:36 · 11142 阅读 · 0 评论 -
机器学习的偏差(bias)和方差(variance)问题
减少偏差偏差过大又称欠拟合(underfitting),原因通常是:模型太过简单,无法很好地拟合样本点。训练集太小。训练轮数太少,即训练时间太短。解决的办法自然是:使用更复杂的模型,在神经网络中增加隐藏层或隐藏单元。增长训练时间,使用更先进的优化算法。收集更多数据加入训练集(当模型无法很好拟合当前训练集时,此方法并无多大作用)解决偏差问题是最基本的要求,是最低标...原创 2018-09-09 15:49:12 · 875 阅读 · 0 评论 -
深度学习——学习率衰减(learning rate decay)
学习率衰减(learning rate decay)为了防止学习率过大,在收敛到全局最优点的时候会来回摆荡,所以要让学习率随着训练轮数不断按指数级下降,收敛梯度下降的学习步长。学习率衰减可以用以下代码实现 decayed_learning_rate = learning_rate * np.power(decay_rate,(global_step / decay_steps))de...原创 2018-09-08 16:03:28 · 43401 阅读 · 2 评论 -
Tensorflow简单操作入门
创建constant`constant_v = tf.constant(数值, name='constant_v')`如X = tf.constant(np.random.randn(3,1),name = 'X')y = tf.constant(39, name='y')创建变量variable_v = tf.Variable(算式, name='variable_...原创 2018-09-02 13:27:33 · 178 阅读 · 0 评论