
深度学习理论基础
文章平均质量分 82
深度学习理论基础
PuJiang-
憨人。 --2021.8.11
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
sigmoid、softmax函数/交叉熵损失函数/二分类、多分类详细推导过程
交叉熵损失函数、MSE、二分类、多分类原创 2022-08-23 22:05:54 · 3248 阅读 · 1 评论 -
线性回归(Linear Regression)、逻辑回归(Logistic Regression)的原理、联系与区别
线性回归、逻辑回归、原理原创 2022-08-23 18:00:31 · 3677 阅读 · 0 评论 -
逻辑回归(Logistic Regression)原理及损失函数、极大似然估计
逻辑回归原理及公式推导过程原创 2022-08-23 16:43:36 · 5940 阅读 · 1 评论 -
模型评估指标_精准率、召回率、F1-score、ROC曲线、AUC曲线
一、分类结果混淆矩阵1、T、F、P、N辨析P(Positive)、N(Negative)针对的是预测值的结果。P表示对样本的预测结果为正例,N表示对样本的预测结果为反例。T(True)、F(False)针对的是预测值的结果是否预测对了。TP表示对该样本预测结果为正例,同时预测对了,真实标签和预测标签都为正例,FP表示对该样本预测结果为正例,但是预测错了,真实标签为反例,预测标签为正例,TN表示对该样本预测结果为反例,同时预测对了,真是标签和预测标签都为反例,FN表示对该样本预测结果为反原创 2022-05-05 12:51:13 · 3753 阅读 · 2 评论 -
Attention的汇总与辨析_Additive、Multiplication、Scaled dot-product、Self Attention、Multi-head Self-Attention
一、Seq2Seq1.1Seq2Seq(Encoder-Decoder)是什么简介:使用Encoder将input编码为一个固定长度的context向量,使用Decoder将context解码为output。input、output长度不一定相同。奠基论文:Sequence to Sequence Learning with Neural Networks...原创 2022-04-07 17:08:52 · 2682 阅读 · 0 评论 -
RNN改进_GRU_LSTM基本原理及辨析、GRU激活函数为什么使用Sigmoid而不是ReLU
一、RNN存在的问题对RNN来讲,没有特别关注的部分,都是一个序列进去。而且RNN的梯度消失指的是每一项一项进行相加,可以发现距离拉的越长,连乘的项就越多,远距离的梯度会趋于0的,近距离的梯度不会消失。RNN梯度消失的真正含义是总的梯度受近距离梯度的主导,远距离的梯度消失。二、GRU门控单元引入重置门和更新门:Rt=σ(XtWwr+Ht−1Whr+br)Zt=σ(XtWwz+Ht−1Whz+bz)R_t=\sigma(X_tW_{wr}+H_{t-1}W_{hr}+b_r) \\ Z_t=\sigm原创 2022-03-28 16:09:43 · 3148 阅读 · 0 评论 -
深度神经网络中的激活函数_导数推理过程_python绘制图像示意_特点及使用场景
1、Sigmoid激活函数f(z)=11+e−zf(z)=\frac{1}{1+e^{-z}}f(z)=1+e−z1f′(z)=0−1∗(1+e−z)′(1+e−z)2=−e−z∗−1(1+e−z)2=e−z(1+e−z)2=1+e−z−1(1+e−z)2=1(1+e−z)−1(1+e−z)2=f(z)(1−f(z)) f^{'}(z)=\frac{0-1*(1+e^{-z})^{'}}{(1+e^{-z})^2}\\ =\frac{-e^{-z}*-1}{(1+e^{-z})^2}\\=\frac{e原创 2022-03-26 13:37:03 · 2169 阅读 · 1 评论 -
RNN基本原理及梯度消失、梯度爆炸的问题原因及解决方法
一、RNN基本结构1、隐层状态sts_tstst=σ(Uxt+Wst−1+b)s_t=\sigma(Ux_t+Ws_{t-1}+b)st=σ(Uxt+Wst−1+b)σ\sigmaσ()是激活函数,通常选用Tanh、ReLU。2、输出状态oto_totot=g(Vst+c)o_t=g(Vs_t+c)ot=g(Vst+c)ggg()是激活函数,对于分类任务通常选用sigmoidsigmoidsigmoid()。3、Loss计算输出状态oto_tot与目标输出yty_tyt计原创 2022-03-25 11:09:24 · 9727 阅读 · 0 评论 -
beam search
原创 2021-08-30 17:12:02 · 169 阅读 · 0 评论 -
dropout手工实现_FashionMNIST数据集
一、dropout原理神经网络中dropout以p的概率丢弃该层的节点。p=0时,没有节点被丢弃。p=1时,将丢弃所有节点。被丢弃的节点hi=0h_i=0hi=0,保留下来的节点hi=hi′h_i=h_i'hi=hi′。其中要满足E[hi′]=hiE[h_i']=h_iE[hi′]=hi。h′={0丢弃概率为ph1−p其他情况h'=\begin{cases}0& \text{丢弃概率为p}\\\frac{h}{1-p}& \text{其他情况}\end{cases}h′=原创 2021-08-16 15:49:06 · 347 阅读 · 0 评论 -
线性回归模型——范数、L1,L2正则化及其手工实现
一、p范数及实现对于线性模型Y=XW+bY=XW+bY=XW+b,其中X∈Rn×dX\in R^{n \times d}X∈Rn×d,nnn为样本数,ddd为每个样本的特征维度,W∈Rd×1W \in R^{d \times 1}W∈Rd×1,Y∈Rn×1Y \in R^{n \times 1}Y∈Rn×1。可以使用权重向量WWW的某个范数来衡量该模型的复杂度。W=(w1,w2,...,wd)W =(w_1,w_2,...,w_d)W=(w1,w2,...,wd)1-范数:∣∣W∣∣1\vert\原创 2021-08-16 12:11:22 · 1621 阅读 · 0 评论 -
多层感知机及手工实现_FashionMNIST数据集
一、多层感知机上图是只有一个隐层的多层感知机网络结构。这里区分上角标(i)(i)(i)表示数据集中第iii个样本,<1><1><1>表示权重矩阵的第1层。实际上,不管是哪个样本x(i)x^{(i)}x(i),它们的权重矩阵是相同的,也就是网络要学习的权重矩阵W<1>W^{<1>}W<1>、b<1>b^{<1>}b<1>、W<2>W^{<2>}W<2>、b<2原创 2021-08-15 11:01:20 · 598 阅读 · 0 评论 -
线性回归的数据维度解释,softmax回归、交叉熵损失函数及手工实现_FashionMNIST数据集
一、线性回归与Softmax回归在上一篇线性回归原理及手工实现实现了一层简单的线性回归模型。对于一层简单的Softmax回归模型,可以在线性回归模型输出的基础上再套一层Softmax函数,输出每个类别的概率。对于一层线性回归模型,网络预测的输出Y^\hat{Y}Y^如下所示,其中X∈Rn×dX\in{R}^{ n\times d}X∈Rn×d,W∈Rd×qW\in{R}^{ d\times q}W∈Rd×q,b∈R1×qb\in{R}^{1\times q}b∈R1×q,O∈Rn×qO\in{R}^{n原创 2021-08-14 17:08:22 · 815 阅读 · 0 评论 -
梯度下降法求解3个向量的均值(未知向量到已知向量的Minimum Distance)
Minimum DistanceWrite a python function def min_dist(u1,u2,u3)(u_1, u_2, u_3)(u1,u2,u3)the functions takes in 3 lists of floats, each of length k, representing k-dimensional vectors. The function returns a list representing a k-dimensional vector v, s原创 2021-08-12 18:16:49 · 518 阅读 · 0 评论 -
多项式回归原理及手工实现
一、线性回归与多项式回归上一篇对于Y=2x1−3x2+4x3−5Y=2x_1-3x_2+4x_3-5Y=2x1−3x2+4x3−5函数进行了拟合,如果函数对于Y=2t4−3t3+4t2−5Y=2t^4-3t^3+4t^2-5Y=2t4−3t3+4t2−5该如何拟合?{x1=t4x2=t3x3=t2 \left\{\begin{aligned}x_1 & = & t^4 \\x_2 & = & t^3 \\x_3 & = & t^2\end{a原创 2021-08-12 15:53:43 · 892 阅读 · 0 评论 -
线性回归(Linear Regression)原理及手工实现_解析解法、梯度下降法求解最优解
一、什么是线性回归直观来讲,就是y=kx+by = kx+by=kx+b的形式,可以用一条直线来进行拟合。一元线性回归:只有一个自变量和一个因变量,y=k1x1+by = k_1x_1+by=k1x1+b的形式表示。多元线性回归:两个及以上的自变量和一个因变量,y=k1x1+k2x2+...+knxn+by=k_1x_1+k_2x_2+...+k_nx_n+by=k1x1+k2x2+...+knxn+b的形式表示。在这里可以再与多项式回归进行区分,y=k1x1+k2x22+...+k原创 2021-08-12 14:15:20 · 1839 阅读 · 0 评论