
机器学习
文章平均质量分 86
内容涵盖学校统计机器学习课程,深度学习入门,华为云modelart实践;
知识点有支持向量机,贝叶斯估计,CNN。
u小鬼
a melancholy programmer
展开
-
ETH开源PPO算法学习
项目地址:https://github.com/leggedrobotics/rsl_rl项目简介:快速简单的强化学习算法实现,设计为完全在 GPU 上运行。这段代码是 NVIDIA Isaac GYM 提供的 rl-pytorch 的进化版。下载源码,查看目录,整个项目模块化得非常好,每个部分各司其职。下面我们自底向上地进行讲解加粗的部分。rsl_rl/││ │ppo.py # PPO算法的实现│ │├─env/原创 2024-02-28 18:19:02 · 2812 阅读 · 0 评论 -
两个高斯分布KL散度推导
Kullback-Leibler 散度(KL散度),也称为相对熵,是衡量两个概率分布相对差异的一种方法。KL散度是非对称的,这意味着从分布。计算两个连续概率分布的KL散度涉及积分运算,因为连续分布的概率是通过概率密度函数 (pdf) 定义的。KL散度在机器学习、统计建模和信息论中有广泛的应用,例如在模型选择、贝叶斯推理和变分推断中。第三部分是一个标准的高斯积分,其结果是 1,因为高斯分布的总积分为 1。这里是一个计算两个高斯分布KL散度的例子,其中。这是两个高斯分布之间的KL散度的封闭形式解。原创 2024-02-27 14:36:44 · 3714 阅读 · 1 评论 -
强化学习策略梯度推导
这一步表明状态分布被规范化了,使得所有状态的分布之和为1。这个公式是策略梯度定理的表述,它表明一个策略的性能梯度(即优化目标函数。通过梯度上升算法,我们可以改善策略,使得在高价值。加上折扣后的未来奖励的期望值。下采取的动作更加频繁,从而提高整体策略的期望回报。每个状态的特征向量与它被访问的概率加权求和。此处,将目标函数中的期望展开,包含从初始状态。最终,我们得到了策略梯度定理的标准形式。,以及在这些状态下,采取不同动作的价值。的梯度)与在该策略下各状态的访问频率。和采取这些动作的策略概率的梯度。原创 2024-02-21 17:49:36 · 1208 阅读 · 0 评论 -
强化学习——价值学习
强化学习和监督学习最大的区别是有没有显式的ground truth可以对训练进行监督。这里DL通过折扣回报关联了前后两个时刻,而且预测未来越短的时间动作序列具有越高的准确率,据此构造了一个隐式的ground truth,在TD算法中是TD对象,对模型参数进行更新。不同的策略对应不同的动作价值函数,可以理解为策略的一种表现形式,最优者定义为。其实际产生方式都是从分布中采样得到,所以折扣回报也是随机变量。其中约等于左边是预测,右边是TD对象,记为。根据折扣回报的定义可以得到。首先引入折扣回报的概念,原创 2023-08-06 13:08:34 · 543 阅读 · 0 评论 -
山东大学机器学习期末2022
本来是不想写的,因为不想回忆起考试时啥也不会的伤痛,没想到最后给分老师海底捞,心情好了一些,还是一块写完。原创 2023-02-27 22:25:20 · 1757 阅读 · 0 评论 -
Problem Set 1
1.先证:当矩阵A的列向量组线性无关,则矩阵ATAA^TAATA可逆。设ATAX=0A^TAX=0ATAX=0,如果ATAA^TAATA可逆则方程有唯一解X=0X=0X=0,原命题等价于证明当矩阵A的列向量组线性无关,则ATAX=0A^TAX=0ATAX=0有唯一解X=0X=0X=0,有XTATAX=0X^TA^TAX=0XTATAX=0,变换得(AX)TAX=0(AX)^TAX=0(AX)TAX=0,AX=0AX=0AX=0,设A=[a1,a2,...,an]A=[a_1,a_2,...,a_n]原创 2023-02-09 11:06:44 · 502 阅读 · 0 评论 -
深度学习入门之ResNet食物图像分类
参加了华为一个小比赛第四届MindCon-爱(AI)美食–10类常见美食图片分类,本来想实践机器学习课程的知识,后来发现图像分类任务基本都是用神经网络做,之前在兴趣课上学过一点神经网络但不多,通过这样一个完整的项目也算入门了。原创 2023-01-09 15:32:44 · 1930 阅读 · 0 评论 -
梯度,GD梯度下降,SGD随机梯度下降
羊了,但是依旧生龙活虎。补补之前落下的SGD算法,这个在深度学习中应用广泛。梯度就是函数对所有单位向量求偏导构成的向量(方向),代表函数fff在定义空间RnR^nRn中的“增长率”。利用方向导数的定义,以及前面的定理,得∇uf(x)=∇f(x)⋅u=∣∣∇f(x)∣∣∣u∣∣cosα∇uf(x)=∇f(x)⋅u=∣∣∇f(x)∣∣∣u∣∣cosαα\alphaα是∇uf。原创 2023-01-01 00:07:02 · 792 阅读 · 4 评论 -
【ML实验4】多分类贝叶斯模型
实验代码获取。原创 2022-12-27 12:59:56 · 820 阅读 · 0 评论 -
Problem Set 2
i—1 Solve p,o,u1 and 2 by maximizing l(, Lo,u1,>). Hint: xtr(AX-1B)=一(X-1BAX-1)T,VA|A=|A|(A-1)T。p)=之1 1(y()=gy) m and Ps(a l y)=>E1 1(g=y Aa,=z) 〉岩11(g(阈)= g)exp(一士(a一 uo)T>-1(a 一o))op(al y= 1)=(2n)n/l2(1/a exp (一是(a。原创 2022-12-27 12:26:04 · 1040 阅读 · 0 评论 -
【ML实验7】人脸识别综合项目(PCA、多分类SVM)
实验代码获取。原创 2022-12-24 11:46:51 · 1510 阅读 · 4 评论 -
【ML实验6】K-means(图像压缩)
实验代码获取。原创 2022-12-22 15:55:28 · 397 阅读 · 0 评论 -
山东大学机器学习课程资源索引
完整实验代码获取。原创 2022-12-21 16:34:35 · 6232 阅读 · 0 评论 -
【ML实验5】SVM(手写数字识别、核方法)
正则项参数C变化,带来优化目标的“倾斜”,但是 margin 和 C 很难发掘出精确的代数关系(经过一个非线性问题的求解),只能说明它们的相关性。之后,决策函数不直接计算,也无法计算,因为 mapping 函数具有无穷维度,实际上通过。默认为0,因为求解器用的是迭代方法,返回数值解,可能收敛到一个很小但不为0的值;可以绕过直接计算 mapping ,如下图,实际就是代换。这里并不是通过 KTT 条件转化,而是对偶问题和原问题为。,可以通过 KTT 条件进行化简。其实,基于同样的技巧,code 中将较小的。原创 2022-12-21 16:03:09 · 1771 阅读 · 0 评论 -
Problem Set 3
而往往少数的点就能确定支撑平面(n 维空间 n 个点确定一个 boundary),因此大部分的点在间隔内。软间隔SVM可以避免过拟合,正如上面的例子,右侧橙色点可能是噪声,用硬间隔SVM会拟合噪声;相反,前者通过松弛变量,泛化模型,提高鲁棒性,因此某些情况下有必要使用软间隔SVM。,KTT 条件成立,满足 stationarity。根据 Dual feasibility 得。,即退化为硬间隔SVM,求得决策边界为。2.2不一定,软间隔SVM模型表达为。,因此该点处拉格朗日函数可以表达为。原创 2022-12-21 13:16:04 · 883 阅读 · 0 评论 -
SVM(二)对偶问题转化以及求解
上篇: SVM(支持向量机)(一)基本形式推导考虑如下优化问题:应用拉格朗日乘子法:定义拉格朗日对偶函数G\mathcal{G}G,这里 infinfinf 是上确界(集合的最小上界)。为什么不写成 minminmin ?因为 G\mathcal{G}G 是非凸的,存在 α,β\alpha,\betaα,β 使其趋于无穷小,不存在一个最小值,通过 infinfinf 表达将这种情况包含。当α≥0\alpha\geq0α≥0时,G\mathcal{G}G 是优化目标fff的下界,这也是构造拉格朗日对原创 2022-12-20 23:06:58 · 1957 阅读 · 0 评论 -
一个PCA加速技巧
而且实际上后者利用了文件存储的结果。效率的差异源于对两个不同矩阵(10304×10304 vs. 400×400)做evd.由于测试集大小在120-200之间,以上准确率可以认为几乎相同。因此我们可以得出结论:SVD-PCA在该人脸数据集表现更优。以上是我发现的一个小技巧,并通过测试发现,SVD-PCA方法准确率和标准EVD-PCA方法几乎相同,而效率大大提升!具体数值如10304×10304是我机器学习课程实验的数据集参数,这里关注数字量级即可。的情况下通过SVD做协方差矩阵。的特征值分解是可行的。原创 2022-12-09 21:11:55 · 1067 阅读 · 0 评论 -
SVM(支持向量机)(一)基本形式推导
据说在dl之前是SVM撑起了ml的半片天,学习后发现SVM是由纯粹的数学推导、转化、求解、优化“堆砌”而来,不如说是数学撑起了ml,ml是数学的学科。以下根据老师ppt上讲解的思路讲讲个人对SVM基本形式推导的理解。margin(间隔)的定义:超平面的法线(normal)为ω\omegaω,margin为点x(i)x^{(i)}x(i)到超平面ωT+b=0\omega^T+b=0ωT+b=0的距离,因此点x(i)−γ(i)×ω∣∣ω∣∣x^{(i)}-\gamma^{(i)}\times\frac{\原创 2022-12-04 19:56:56 · 1296 阅读 · 0 评论 -
PCA主成分分析法浅理解
ML课刚学,发现更多是对线性代数的回顾。更进一步说,统计机器学习方法就是以高数、线代和概率论为基石构筑的“一栋大厦”。下面主要沿着老师ppt的思路讲讲对PCA方法的个人理解。优化目标为使投影数据的方差最大,根据最大方差理论:方差越大,信息量越大。以此为目标使投影保留的数据信息量最大,损失最小。通过降维后的数据重构原数据。的优化目标时相等价,印证了方差最大理论。,等式左侧正是我们的优化目标,特征值。,看损失了多少,是不是最小。因此,在算法步骤中,对。上的投影长度,实际上。个作投影,将数据降至。原创 2022-12-01 16:13:02 · 1010 阅读 · 0 评论 -
高斯判别分析(GDA)公式推导
解:将概率分布代入对数似然函数,因此,(4)式可简化为。原创 2022-11-16 21:22:26 · 580 阅读 · 1 评论 -
课堂问题:一个凸函数的性质
任意情况都成立,部分特殊情况也肯定成立。对于任意的 x,y 均成立,是凸函数(convex).),代入上式,合并同类项,是凸函数(convex)原创 2022-11-09 10:55:19 · 363 阅读 · 0 评论