
机器学习
qq_41978536
这个作者很懒,什么都没留下…
展开
-
SQL的基本操作
本来想自己总结记录一下的,后来感觉有点麻烦。还是参考一下别人的吧。方便以后查阅:reference:sql的基本操作转载 2019-11-23 15:27:15 · 244 阅读 · 0 评论 -
正交,独立,相关及之间的关系
一、‘独立’,‘不相关’和‘正交’的定义二、“独立”、“不相关”和“正交”之间的关系三、线性无关、线性相关与正交的关系正交必线性无关,线性无关不一定正交四:皮尔森相关系数(描述的是线性相关程度)...原创 2019-11-12 10:30:15 · 19047 阅读 · 3 评论 -
python手写kmeans以及kmeans++聚类算法
自己用python手写实现了kmeans与kmeans++算法。记录一下,说不定以后就用着了呢。首先是用到的几个自定义函数:def nearest(data,cluster_center): n = len(cluster_center) m = len(data) sum1 = 0 dis = [] for i in range(n): ...原创 2019-11-08 13:27:25 · 1217 阅读 · 0 评论 -
矩阵求导,几种重要的矩阵及常用的矩阵求导公式
一、矩阵求导一般来讲,我们约定x=(x1,x2,...,xn)Tx = (x_1,x_2,...,x_n)^Tx=(x1,x2,...,xn)T,这是分母布局。常见的矩阵求导方式有:向量对向量求导、标量对向量求导、向量对标量求导。Numerator layout:分子布局,可以简单理解为要求导得向量是行向量。Denominator layout:分母布局,可以简单理解为要求导得向量是列...原创 2019-04-29 20:33:18 · 3113 阅读 · 0 评论 -
协方差矩阵与PCA原理深入剖析
一、协方差矩阵首先,协方差矩阵一定是实对称阵。一个维度上方差的定义:协方差的定义:协方差就是计算了两个维度之间的相关性,即这个样本的这两个维度之间有没有关系。协方差为0,证明这两个维度之间没有关系,协方差为正,两个正相关,为负则负相关。协方差矩阵的定义:对n个维度,任意两个维度都计算一个协方差,组成矩阵,定义如下:直观的对于一个含有x,y,z三个维度的样本,协方差矩阵如下:...原创 2019-04-24 22:26:13 · 2219 阅读 · 3 评论 -
机器学习面试常问算法问题二:梯度消失和梯度爆炸
一.梯度消失与梯度爆炸问题简述层数比较多的神经网络模型在使用梯度下降法对误差进行反向传播时会出现梯度消失和梯度爆炸问题。梯度消失问题和梯度爆炸问题一般会随着网络层数的增加变得越来越明显。例如,对于图1所示的含有3个隐藏层的神经网络,梯度消失问题发生时,靠近输出层的hidden layer 3的权值更新相对正常,但是靠近输入层的hidden layer1的权值更新会变得很慢,导致靠近输入层的隐藏...转载 2019-04-29 16:12:57 · 543 阅读 · 0 评论 -
机器学习-数据归一化及哪些算法需要归一化
一、数据为什么需要归一化处理归一化的目的是处理不同规模和量纲的数据,使其缩放到相同的数据区间和范围,以减少规模、特征、分布差异对模型的影响。方法:1.极差变换法2. 0均值标准化(Z-score方法)1.Max-Min(线性归一化)Max-Min归一化是对原始数据进行线性变化,利用取值的最大值和最小值将原始数据转换为某一范围的数据缺点:归一化过程与最大值和最小值有关,容易受...转载 2019-04-23 19:31:13 · 5595 阅读 · 2 评论 -
机器学习面试中常问到的算法问题1----L1正则化与L2正则化的区别以及为什么L1正则化可以产生稀疏矩阵,L2正则化可以防止过拟合**
一、L1正则化与L2正则化的区别以及为什么L1正则化可以产生稀疏矩阵,L2正则化可以防止过拟合正则化(regularization):机器学习中几乎都可以看到损失函数后面会添加一个额外项,常用的额外项一般有两种,一般英文称作L1-norm和L2-norm,中文称作 L1正则化 和 L2正则化,或者 L1范数 和 L2范数。L1正则化和L2正则化可以看做是损失函数的惩罚项。所谓『惩罚』是指对损失...原创 2019-04-26 17:50:55 · 2049 阅读 · 1 评论 -
组队学习三:决策树算法梳理
一、信息论基础1.熵:信息熵代表的是随机变量或整个系统的不确定性,熵越大,随机变量或系统的不确定性就越大。即描述的是有关事件XXX的所有可能结果的自信息期望值:H(X)=−∑i=1npilogpiH(X)=-\sum\limits_{i=1}^{n}p_{i}logp_{i}H(X)=−i=1∑npilogpi其中n代表事件XXX的所有n种可能的取值,pip_ipi代表了事件X为i时的...原创 2019-04-03 10:20:30 · 593 阅读 · 0 评论 -
交叉熵,相对熵(KL散度),互信息(信息增益)及其之间的关系
刚刚查了点资料,算是搞清楚了相对熵与互信息之间的关系。在这里记录一下,后面忘记的话可以方便查阅。首先,同一个意思的概念太多也是我开始搞混这些概念的原因之一。首先说一下编码问题:最短的平均编码长度 = 信源的不确定程度 / 传输的表达能力。其中信源的不确定程度,用信源的熵来表示,又称之为被表达者,传输的表达能力,称之为表达者表达能力,如果传输时有两种可能,那表达能力就是log22=1log_...原创 2019-04-04 11:01:42 · 6470 阅读 · 0 评论 -
组队学习--线性回归算法梳理及机器学习中常见概念
一、机器学习的一些概念1.监督学习(supervised learning):监督学习的训练集要求包括输入输出,也可以说是特征和目标。训练集中的目标是由人标注的。监督学习就是最常见的分类(注意和聚类区分)问题,通过已有的训练样本(即已知数据及其对应的输出)去训练得到一个最优模型(这个模型属于某个函数的集合,最优表示某个评价准则下是最佳的),再利用这个模型将所有的输入映射为相应的输出,对输出进行简...原创 2019-03-29 16:26:30 · 278 阅读 · 0 评论