- 博客(32)
- 资源 (2)
- 收藏
- 关注
原创 神经网络中的权重初始化
从神经网络输入和输出尽量都要有相同的方差出发,但均值很难保持一致(由于有一些非负的激活函数)。而且现有的标准化策略也是起到了同样的作用,如BN,LN等,都是努力将中间层的输出的方差和均值限定为1和0,但是最近的一些BN的工作(如用在Google T5中的RMS Norm)尝试了去掉减去均值的操作,反而会有提点的效果。说明保持均值一致并不是必须的。对于一个输入含有m个神经单元的网络层,输出n个值。当没有激活函数时,模型为yibi∑jwijxij。
2024-04-08 22:15:33
1081
原创 一个关于调度的paper
本文提出了一种新的算法模型去最大化封装和测试的批量的吞吐量,而且确保关键批量的权重优先级。该问题是一个混合整数规划问题,采用反应贪婪随机自适应搜索算法(greedy randomized adaptive search procedure, GRASP)求解。......
2022-07-04 14:23:16
328
原创 线性因子模型
线性因子模型线性因子模型是基于潜变量的一类简单概率模型,线性因子模型通过随机线性解码器函数来定义,通过函数对 hhh 的线性变换以及添加噪声来生成 xxx 。线性因子模型描述了如下的数据生成过程。首先我们从一个分布中抽取解释性因子 hhh ,h∼p(h)h \sim p(h)h∼p(h) ,其中 p(h)p(h)p(h) 是一个因子分布,满足 p(h)=∏ip(hi)p(h)=\prod_{i}p(h_i)p(h)=∏ip(hi) ,易于从中采样。接下来,再给定因子的情况下,我们对实值的可观察变量进
2022-04-18 14:07:35
1133
原创 autoencoder
自编码器1.欠完备自编码器从自编码器获得有用特征的一种方法是限制 hhh 的维度比 xxx 小,这种编码维度小于输入维度的自编码器称为欠完备自编码器(undercomplete autoencoder) 。学习欠完备的表示将强制自编码器捕捉训练数据中最显著的特征。学习过程可以简单的描述为最小化一个损失函数 L(x,g(f(x)))L(x,g(f(x)))L(x,g(f(x))) ,其中 LLL 是一个损失函数,如均方误差。当解码器是线性的并且 LLL 是均方误差,欠完备自编码器会学习出与 PCA 相
2022-04-18 09:53:06
826
原创 常见循环神经网络概括
常见循环神经网络概括循环神经网络(recurrent neural network)是一类专门用于处理序列数据的神经网络,就像卷积神经网络是专门处理网格化数据(如图像)的神经网络,卷积神经网络是专门用于处理序列 x(1),⋯ ,x(τ)x^{(1)}, \cdots, x^{(\tau)}x(1),⋯,x(τ) 的神经网络。本文主要介绍花书中提到的几种循环神经网络。循环神经网络中的一些重要设计模式包括以下几种:每个时间步都有输出,并且隐藏单元之间有循环连接的循环网络,如图每个时间步都产生一
2022-04-17 20:54:18
1970
原创 ActionSpotter Deep Reinforcement Learning Framework for Temporal Action Spotting in Videos
ActionSpotter: Deep Reinforcement Learning Framework for Temporal Action Spotting in Videos论文阅读笔记1.abstractaction spot 最近被提出用来代替动作检测和关键帧检测的任务,目前最有效的 action spot 方法需要昂贵的 ground truth,由人类注释的搜索序列组成——这是一个关键限制。在本文中,我们提出了一种使用强化学习算法去做 action spot 任务的算法,而且仅使用动作
2022-04-14 22:13:55
302
原创 L1、L2 正则化的一些原理
L1/L2 正则化与高斯先验/对数先验的 MAP 贝叶斯推断的关系1. MAP 贝叶斯推断贝叶斯推断和极大似然的用处一样,都是求生成训练数据的参数 θ\thetaθ ,但是极大似然估计是基于频率派的思想,而贝叶斯推断是基于贝叶斯派的思想。MAP(Maximum A Posteriori, MAP)最大后验估计点估计。θMAP=argmaxθp(θ∣x)=argmaxθlogp(x∣θ)+logp(θ)\theta_{MAP} = \underset{\theta}{argmax} p(\thet
2022-04-10 18:29:07
1180
原创 机器学习常见问题
机器学习一些常见问题特征工程是什么?特征工程(Feature Engineering)特征工程是将原始数据转化成更好的表达问题本质的特征的过程,使得将这些特征运用到预测模型中能提高对不可见数据的模型预测精度。特征工程简单讲就是发现对因变量y有明显影响作用的特征,通常称自变量x为特征,特征工程的目的是发现重要特征。如何能够分解和聚合原始数据,以更好的表达问题的本质?这是做特征工程的目的。特征工程是数据挖掘模型开发中最耗时、最重要的一步。深度了解特征工程 - 知乎 (zhihu.com)类别
2022-04-08 11:42:18
1201
原创 详解 CatBoost 原理
详解 CatBoost 原理集成学习的两大准则:基学习器的准确性和多样性。算法:串行的Boosting和并行的Bagging,前者通过错判训练样本重新赋权来重复训练,来提高基学习器的准确性,降低偏差!后者通过采样方法,训练出多样性的基学习器,降低方差。1.catboost 的优缺点性能卓越:在性能方面可以匹敌任何先进的机器学习算法鲁棒性/强健性:它减少了对很多超参数调优的需求,并降低了过度拟合的机会,这也使得模型变得更加具有通用性易于使用:提供与 scikit 集成的 Python 接口,以及
2022-04-07 15:49:02
17280
1
原创 BERT论文笔记
BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding作者:Google1.Introduction 预训练方法适用于 NLP 任务,包括词嵌入、GPT等方法。NLP 包括两类:第一类叫做句子层面的任务,识别句子的情绪或者连两个句子之间的关系;第二类是词语层面上的任务,识别各个词,对细粒度要求较高。 存在两种预训练的策略,第一种是基于特征的,代表作是 ELMo,对每一下游的任务,构造相关的神
2022-04-01 21:00:49
394
原创 Fully Convolutional Networks for Semantic Segmentation
Fully Convolutional Networks for Semantic Segmentation 论文阅读论文:Fully Convolutional Networks for Semantic Segmentation(2015 CVPR)作者:Jonathan Long Evan Shelhamer Trevor Darrell -UC Berkeley图像分割领域的开山之作1.1 研究成果将分类网络改变为全卷积神经网络,具体包括全连接层转换为卷积层以及通过反卷积进行
2022-03-19 21:15:41
5425
原创 Linux组队学习(三)
Task8-Task10任务8:使用grep和awk从文件中筛选字符串步骤1:下载周杰伦歌词文本,并进行解压。https://mirror.coggle.club/dataset/jaychou_lyrics.txt.zip用前面介绍的wget命令下载即可,输入命令wget https://mirror.coggle.club/dataset/jaychou_lyrics.txt.zip,即可完成下载。若想用wget下载到指定文件夹 则输入wget的-P参数,示例wget -P /usr/lo
2021-12-28 00:35:38
615
原创 Linux组队学习(二)
Linux组队学习Task5-Task7任务5:在目录下创建py文件,并进行运行步骤1:学习python下os模块处理文件和目录的函数,https://www.runoob.com/python/os-file-methods.html步骤2:学习python下sys模块和传参函数,https://www.runoob.com/python3/python3-module.html步骤3:在home/datawhale目录下,在你英文昵称(中间不要有空格哦)的文件夹中,新建一个test5.py文
2021-12-22 22:58:53
631
原创 Linux组队学习(一)
最近参加的linux组队学习活动任务1-41 vscode配置远程连接环境在扩展市场搜索remote ssh扩展,然后左侧会出来一个图标,点击后出现下面界面左上角选择SSH Targets,点击设置按钮这个地方鼠标悬停后会出现一个设置按钮,点击后选择config文件,就进入上图的样式,输入用户名和IP地址,保存后左边就会出现datawhale字样,点击“+”即可连接成功。2.Task12.1 任务一:使用命令行登录指定的Linux环境按照上面步骤已完成2.2 任务二:在目录下创建文件
2021-12-17 13:57:57
501
原创 贝叶斯 sklearn
sklearn上的全部贝叶斯类型https://sklearn.apachecn.org/#/docs/master/10
2021-10-18 16:26:19
106
原创 Logistic_Regression和神经网络训练中的提前终止
Logistic Regression 逻辑回归逻辑回归模型二项的逻辑回归模型是由如下条件概率分布组成:$$P(Y=1|X)=\frac{exp{(w \cdot x)}}{1+exp{(w \cdot x)}} \P(Y=0|X)=\frac{1}{1+exp{(w \cdot x)}}$$其中xxx是输入,YYY是输出,www是需要学习的参数。用极大似然估计来学习参数于给定的训练数据集T={(x1,y1),(x2,y2),⋯ ,(xN,yN)}T= \left \{(x_1, y_1)
2021-10-18 14:40:44
1018
原创 k邻近算法原理和sklearn函数的参数详解
kkkNNk近邻(k-Nearest Neighbor, kNN),kNN的一个特点是没有显式的训练过程,事实上,它是“懒惰学习”(lazy learning)的代表,那些在训练过程中就迫不及待学习处理样本的方法,称为“急切学习”(eager learning)。讨论最近邻算法(k=1)给定测试样本x,若其最近邻样本为z,则最近邻分类器出错的概率就是x和z类别标记不同的概率$$P(err)=1-\sum_{c\in \mathcal{Y}}P(c|x)P(c|z)$$假设样本独立同分布,且对任
2021-10-18 14:36:40
1855
原创 神经网络常用和不常用损失函数
神经网络中常用损失函数汇总假设训练集有N个数据对,输入数据XXX:x1,x2,⋯ ,xNx_1, x_2, \cdots, x_Nx1,x2,⋯,xN,输入数据预测值为YpredictY_{predict}Ypredict:ypredict1,ypredict2,⋯ ,ypredictNy_{predict}^1, y_{predict}^2, \cdots, y_{predict}^Nypredict1,ypredict2,⋯,ypredictN,输入数据真实值为YtrueY_{true}
2021-10-18 14:34:26
260
原创 排序算法汇总
排序算法汇总排序算法非常多,这里为方便查找,特此汇总。1 插入排序先给出插入排序的伪代码输入:无序的数组A 输出:排好序的数组Afor j=2 to A.length: key = A[j] i = j - 1 while i>0 and A[i]>key: A[i+1] = A[i] i = i - 1 A[i+1] = key插入排序算法的最坏情况的时间复杂度为O(n2)O(n^{2})O(n2)算法的代码实现def InsertSort(A
2021-09-24 16:54:22
72
原创 岭回归与最小二乘法
#! https://zhuanlan.zhihu.com/p/406879862岭回归与最小二乘法对于过拟合我们有很多种处理方法,常用的有三种:增加数据、特征选择、正则化。岭回归即我们通常所述的 l2l2l2 正则,这里研究一下上一篇文章的最小二乘法的岭回归的形式。 首先回顾一下最小二乘法,L=∑i=1N∥wTxi−yi∥2L=\sum_{i=1}^{N}\|w^Tx_i-y_i\|^2L=∑i=1N∥wTxi−yi∥2,得到w^=argminwL=(XTX)−1XTY\hat{w}=\und
2021-09-04 20:51:07
526
原创 DDQN与DQN算法用tensorflow2.0实现
深度强化学习Double Deep Q Learning算法和Deep Q Learning用tensorflow2.0实现DQN算法实现首先搭建网络结构,是一个很简单的三个全连接层。from keras import layers, modelsclass Q_Network: def __init__(self, observation_n, action_n): self.observation_n = observation_n self.acti
2021-09-04 14:34:04
2554
原创 最小二乘法 ——白板推导系列(第三节)
最小二乘法及其几何意义最小二乘法介绍最小二乘法(又称最小平方法)是一种数学优化技术。它通过最小化误差的平方和寻找数据的最佳函数匹配。利用最小二乘法可以简便地求得未知的数据,并使得这些求得的数据与实际数据之间误差的平方和为最小 。最小二乘法还可用于曲线拟合,其他一些优化问题也可通过最小化能量或最大化熵用最小二乘法来表达。假设有N个样本点X=(x1,x2,…,xN)TX=(x_1, x_2, \dots, x_N)^TX=(x1,x2,…,xN)T, xix_ixi是ppp维向量, 相应的观测数
2021-09-01 10:27:31
260
原创 EM算法学习
#! https://zhuanlan.zhihu.com/p/402301009EM算法详解1.1 EM算法概括 我们从最大后验出发,根据最大后验的原理,我们求参数的方法为θMLE=argmaxaP(x∣θ)\theta_{MLE}=\underset{a}{argmax}P(x|\theta)θMLE=aargmaxP(x∣θ),EM算法的迭代格式为θ(t+1)=argmaxa∫zlogP(x,z∣θ)⋅P(z∣x,θ(t))dz=argmaxaEz∣x,θ(t)[logP(x,z∣θ
2021-08-22 11:20:36
199
原创 变分推断学习
#! https://zhuanlan.zhihu.com/p/401456634变分推断1.变分推断的背景 在机器学习中,有很多求后验概率的问题,求后验概率的过程被称为推断(Inference),推断分为精确推断和近似推断。精确推断一般主要是根据贝叶斯等概率公式推导出后验概率,但在一些生成模型中,如RBM, DBN, DBM很难应用精确推断,于是乎我们就有了近似推断,近似推断又分为确定性近似和随机性近似,确定性近似方法就是变分推断(Variance Inference, VI),随机性近似的方法
2021-08-19 15:33:06
406
原创 白板推导系列(第二节)
白板推导系列(第二节)内容来源于b站up主shuhuai008高斯分布介绍正态分布(Normal distribution),也称“常态分布”,又名高斯分布(Gaussian distribution),最早由棣莫弗(Abraham de Moivre)在求二项分布的渐近公式中得到。C.F.高斯在研究测量误差时从另一个角度导出了它。P.S.拉普拉斯和高斯研究了它的性质。是一个在数学、物理及工程等领域都非常重要的概率分布,在统计学的许多方面有着重大的影响力。一元高斯分布的概率密度函数为:f(x)=12
2021-07-07 20:22:59
160
原创 (B站)白板推导系列学习笔记(第一节)
(B站)白板推导系列学习笔记(第一节)频率派VS贝叶斯派机器学习中的统计问题频率派贝叶斯派总结频率派VS贝叶斯派该节介绍了频率派和贝叶斯派的异同和应用点,内容来源于b站up主shuhuai008。机器学习中的统计问题在一些典型的机器学习问题中,我们常常会遇到样本X和参数θ\thetaθ, 样本X作为观察到的信息,通常是一个矩阵形式:[x11x12⋯x1nx21x22⋯x2n⋮⋮⋯⋮xn1xn2⋯xnn]\begin{bmatrix} x_{11} &x_{12} &\cdots
2021-06-23 10:51:56
170
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人