
机器学习
icodeblocks
这个作者很懒,什么都没留下…
展开
-
线性回归模型的公式推导
线性回归模型的公式推导y = θ0+θ1x1+θ2x2+θ3x3+...+θmxm\theta_0 +\theta_1 x_1+\theta_2 x_2+\theta_3 x_3+...+\theta_m x_mθ0+θ1x1+θ2x2+θ3x3+...+θmxm因为现在需要有n个样本,每个样本有m个特征,为了将常数项加如矩阵,加入一列特征,所以有n行m+1列,矩阵大小为n*(m+1)为了将常数项θ0\theta_0θ0包括进参数θ\thetaθ的矩阵中,我们需要将θ\thetaθ原创 2020-11-23 13:30:36 · 602 阅读 · 0 评论 -
数据分箱
数据分箱##为什么需要将连续数据做分箱?(为什么要对连续特征做离散化处理)离散特征的增加与减少都很容易,易于模型的快速迭代,(就是说增加一个或几个离散特征,模型在原先的基础上训练,相对于连续特征,时间花费比较少)稀疏向量内积乘法运算速度快,计算结果方便存储,容易扩展逻辑回归属于广义线性模型,表达能力受限;单变量散化为N个后,每个变量有单独的权重,相当于为模型引入了非线性,能够提升模型表达能力,加大拟合。离散化的特征对异常数据有很强的鲁棒性,比如:一个特征是年龄>30是1,否则是0,。如果特原创 2020-11-21 20:25:11 · 375 阅读 · 0 评论 -
k-means
k-means 聚类算法是在不知道数据标签的情况下将相似的数据分为一类。K-means是一个经典的聚类算法,在实践中往往得到不错的效果。K-means的算法流程:选择K个中心点,计算样本中每个点与这K个点的距离。比较样本点离那个中心点最近的,并将该样本点划分到离样本点最近的类别中。根据第2步将每个样本分为K个簇,求每个簇的中心点,将其作为新的中心点。重复的执行1到3步,直到簇的中心变化小于规定值,或者达到预定的迭代次数,或者MSE小于预定值。 算法的可视化如图:算法的原创 2020-11-20 17:28:23 · 313 阅读 · 0 评论 -
FM模型
FM(Factorization Machines,因子分解机),它是一种通用的预测方法,在即使数据非常稀疏的情况下,依然能估计出可靠的参数进行预测。与传统的简单线性模型不同的是,因子分解机考虑了特征间的交叉,对所有嵌套变量交互进行建模(类似于SVM中的核函数),因此在推荐系统和计算广告领域关注的点击率CTR(click-through rate)和转化率CVR(conversion rate)两项指标上有着良好的表现。此外,FM的模型还具有可以用线性时间来计算,以及能够与许多先进的协同过滤方法(如Bi原创 2020-11-19 16:03:16 · 422 阅读 · 0 评论 -
逻辑回归的损失函数与损失函数的梯度公式推导
逻辑回归的损失函数逻辑回归的函数为f(x)=11+e−θTxf(x) = \cfrac{1} {1+e^{-\theta^T x }}f(x)=1+e−θTx1公式满足分布函数的性质(1)非负有界性 0<=F(x)<=10<= F(x) <=10<=F(x)<=1 (2)单调连续性 (3)右连续性 F(x0+)=F(x)F(x_0^+) = F(x)F(x0+)=F(x)所以可以认为是随机变量x的分布函数,即为F(x)=P(x)F(x) = P(x)F(x原创 2020-11-17 22:52:05 · 433 阅读 · 1 评论 -
Adaboost模型公式的参数推导
假设最后根据各个基模型Gi(x)i∈[1,m]G_i(x) {i\in[1,m]}Gi(x)i∈[1,m],各个基模型重要程度为αi\alpha_iαi加权得到的模型为fm(x)f_m(x)fm(x),其中y∈{−1,1}y\in{\{-1,1\}}y∈{−1,1}fm(x)=∑i=1mαiGi(x) f_m(x) = \sum_{i = 1}^{m}\alpha_{i} G_i(x) fm(x)=i=1∑mαiGi(x)fm(x)=∑i=1m−1αiGi(x)+αmGm(x) f_m(x原创 2020-11-17 22:29:41 · 208 阅读 · 1 评论 -
sigmoid函数和tanh函数和relu函数和leaky_relu函数
sigmoid函数,tanh函数,relu函数,leaky_relu函数原理与实现import numpy as npimport pandas as pdimport matplotlib.pyplot as pltdef sigmoid(x): return np.exp(x)/sum(np.exp(x))def tanh(x): return (np.exp(x) - np.exp(-x))/(np.exp(x) + np.exp(-x))def relu(x):原创 2020-11-17 22:19:54 · 381 阅读 · 0 评论 -
逻辑回归的损失函数与损失函数的梯度公式推导
逻辑回归的损失函数 逻辑回归的函数为f(x)=11+e−θTxf(x) = \cfrac{1} {1+e^{-\theta^T x }}f(x)=1+e−θTx1 公式满足分布函数的性质(1)非负有界性 0<=F(x)<=10<= F(x) <=10<=F(x)<=1 (2)单调连续性 (3)右连续性 F(x0+)=F(x)F(x_0^+) = F(x)F(x0+)=F(x)所以可以认为是随机变量x的分布函数,即为F(x)=P(x)F(x) = P(x原创 2020-11-16 16:18:13 · 723 阅读 · 0 评论 -
决策树2
决策树2 决策树如果一直分类下去,可以直到熵为0或者基尼指数为0。但数据存在噪声,如果把每一个点都分类正确,模型的泛华能力就不够,此时的模型分类效果好就仅仅是一种巧合。对于这种情况,决策树模型一般的处理方法就是将决策树模型进行剪枝操作。 剪纸操作分为两种,一种是前剪枝,一种是后剪枝。 前剪枝:在生成决策树的过程中剪枝。在决策树完全分类完成前就进行剪枝操作。这种剪枝一般通过调整决策树的深度,节点中最少多少了样本点就不在分裂,计算每次分裂的准确率,当准确率的提升小于某个阀值时就停止分裂。原创 2020-10-15 08:33:41 · 365 阅读 · 1 评论 -
决策树
决策树1 在介绍决策树之前,我们需要先学习生成决策树中必不可上的一环—信息熵。 熵表示的是混乱的程度,对应在分类问题上可以看做集合中标签不确定的程度。对一个标签的集合,其中个标签的比例相当,没有哪一个标签的比例太高或太低,这样确定某一个标签的种类就越难。或者说这个集合中标签的纯度。 为了表示这种不确定的程度,我们引入信息熵的概念。 设X是一个取有限个值的离散随机变量,其概率分布为: P(X=xi)=pi,i=1原创 2020-10-14 09:26:39 · 169 阅读 · 0 评论