
机器学习
文章平均质量分 83
Big Cabbage
这个作者很懒,什么都没留下…
展开
-
K均值算法
除了初始聚类中心的选择,K-means++ 其余部分与 K-means 算法的流程一致。如上图所示,使用欧式距离的平方作为样本距离:先计算向量对应元素的差值,然后取平方,最后求和;K均值聚类使用欧氏距离的平方表示样本之间的距离或相似度。样本距离越小,样本的相似性越大。步骤2:计算 X 中的每个样本点x_i和已有聚类中心的最近样本距离d(x_i)计算样本特征向量 x_i 和每个聚类中心 c_j 的距离,计算公式如下:.这里的样本距离选择的是欧氏距离的平方,和 K-means 算法保持一致。原创 2024-12-18 21:57:16 · 938 阅读 · 0 评论 -
随机森林算法原理
随机森林的两个随机性有利于增大个体学习器之间的差异,增强模型的泛化性能。由于随机森林的决策树是从一个特征子集中进行特征选择,所以训练效率要优于 Bagging。相比 Boosting 类算法,随机森林实现简单,决策树之间相互独立,可以并行训练。由于存在特征子集的随机选择,随机森林可以处理特征维度较高和部分特征缺失的情况。随机森林可以评估特征的重要性(本章的项目实战中会有相应的练习代码)。原创 2024-12-18 21:23:38 · 512 阅读 · 0 评论 -
决策树的生成与剪枝
内部结点代表样本的特征,叶子结点代表样本的预测类别,我们将叶子节点中训练样本占比最大的类作为决策树的预测标记。决策树的叶子结点个数表示模型的复杂度,通过最小化上面的损失函数,一方面可以减少模型在训练样本上的预测误差,另一方面可以控制模型的复杂度,保证模型的泛化能力。决策树的叶子节点越多,模型越复杂。使用信息增益在 A 中进行特征选择,若所选特征 A_i 的信息增益小于设定的阈值,则 T 为单结点树,返回 D 中数量最多的类别。若 A 中的特征为空,则 T 为单结点树,返回 D 中数量最多的类别。原创 2024-12-18 21:08:37 · 1059 阅读 · 0 评论 -
决策树模型与特征选择
从定义上我们很容易得知:特征 X 的信息增益 = Y 的信息熵 - Y 的条件熵,当信息熵和条件熵中的概率由数据估计(如极大似然估计)得到时,所对应的信息熵与条件熵分别称为经验熵和经验条件熵。我们事先并不知道使用哪些特征去判断是否同意申请人的贷款,但是观察训练数据可知,若根据某些特征筛选得到的样本集合是属于同一类别的,则可以形成一条特征到类别的决策规则,如:有房同意贷款,没房没工作不同意贷款,没房有工作同意贷款。我们希望这个概率分布是某一类占多数,或者都是同一类别的,这样的特征具有较强的分类能力。原创 2024-12-18 20:33:37 · 697 阅读 · 0 评论 -
朴素贝叶斯分类器
第二行公式是样本类别确定的条件下样本各个特征取值的概率分布,比如类别取值为0时,特征x_1取值的概率分布:P(X_1=2|Y=0)=0.4,P(X_1=6|Y=0)=0.6。若P(X)表示事件X发生的概率;公式中的分母部分是全概率表达式,分子中的P(Y)称为类别Y的先验概率,P(X|Y)称为类别Y确定后的条件概率,贝叶斯公式计算的P(Y|X)称为后验概率。图中随机变量X的取值为{1,2},随机变量Y的取值为{0,1},中心区域是X和Y的联合概率,边缘部分是X和Y的边缘概率,都满足概率之和为1。原创 2024-12-18 16:24:37 · 657 阅读 · 0 评论 -
特征工程与CTR预估
特征分箱之后,我们可以对变量做进一步的OneHot编码处理,例如有一个表示职业类型的特征x,共有 4 个取值:医生、老师、学生、警察,将其 OneHot 编码之后,特征x从1维升高至4维:特征 x 的每一个取值都可以用一个4维向量来表示,该向量的元素非零即一,我们把它叫做OneHot特征向量:向量中只有一个元素取值为 1,其余元素的取值均为 0,x 的取值通常是OneHot特征向量的非零特征索引。原创 2024-12-18 15:31:03 · 975 阅读 · 0 评论 -
Logistic 回归算法原理
二是电商场景下的样本类别不平衡问题会导致正样本的召回率偏低,毕竟用户的不点击行为是占多数的,而 KNN 是使用多数表决的分类规则。其中m是样本个数,P(yi|xi)是在给定样本特征xi的条件下, 模型将样本i预测为真实标记值yi的概率,将每个样本预测正确的概率连乘起来就得到了似然函数(这句话很重要)。两个等式右边的表达式就不用解释了,等式左边是条件概率的表示方法,简单来说就是:给定样本特征 xi 的条件下,样本标记 yi 取值为 1 或 0 的概率。所以,对数损失函数值越小,模型在该样本上的表现就越好。原创 2024-12-18 13:49:25 · 862 阅读 · 0 评论 -
模型评估与模型选择
公式中的λ用来调节经验风险和正则化项之间的关系,第一个公式中的正则项是参数向量的 2 范数平方后再乘以1/2,这么设计是为了求梯度后形式的简洁,方便写梯度下降的代码。上面介绍的准确率、精确率、召回率、F1值等评价指标,主要是看模型在测试集上的表现,因为测试集不参与模型的训练,可以用来估计模型的泛化性能。实际上我们是根据 D1 上训练出的模型的泛化性能来估计 D 上训练出的模型的泛化性能,所以训练集和验证集的划分也比较重要,一般是将大约2/3~4/5的样本用于训练,剩余的样本用于模型评估。原创 2024-12-18 10:23:22 · 1097 阅读 · 0 评论 -
线性回归算法原理
上面的公式无法表示不同样本的预测输出,而且形式也不够简洁,所以我们需要换个更加规范和统一的表达方式。首先约定一些符号的表示含义:一定要仔细看一下上图中符号的细节和含义哦,确保自己再看到这些符号时能够回想起它们的含义,即便一时不理解,再看到它们时也要能够找到这幅图~认识了这些符号的含义之后,我们来看一下参数向量w和特征向量xi的表现形式:图中的 w 和 xi 既可以看作列向量也可以看作列矩阵。原创 2024-12-17 22:39:35 · 702 阅读 · 0 评论 -
K近邻原理和距离
回归问题中预测的 y 值是一个连续值,上图中每个样本点周围的数字代表其 y 值,K近邻是将离 X 最近的 K个样本的 y 值的平均值作为 X 的预测 y 值。例如我们有一个特征维数为 2、样本数量为 3 的训练集:data = {[1,2,0],[3,1,0],[2,3,1]},则其中的样本分别为 [1,2,0]、[3,1,0]、[2,3,1],样本特征分别为 [1,2]、[3,1]、[2,3],样本类别分别为 0、0、1。K 近邻中的 K 值是人为设定的参数, K 值的选取会对预测结果产生影响。原创 2024-12-17 21:28:10 · 974 阅读 · 0 评论 -
利用线性回归预测波士顿房价
【代码】利用线性回归预测波士顿房价。原创 2024-12-17 20:54:51 · 152 阅读 · 0 评论 -
机器学习基本概念
这就属于一个监督学习的问题,假如没有标记值 y ,是无法学习到模型参数 k 和 b 的。过拟合的反面是欠拟合,也就是模型对训练数据的拟合程度不够,导致在训练数据上的误差较大,这种情况下模型在测试数据上的表现一般也不好。分类问题中预测的 y 值是离散值,一般取值的个数是有限的,比如性别、职业、省份等;回归问题中预测的 y 值是连续值,一般取值的个数是无限的,比如身高、体重、收入等。数据拟合:模型的预测输出值是不断地拟合与逼近真实的 y 值的。好的拟合曲线是可以反映大部分数据点的规律,有一定的泛化能力;原创 2024-12-17 20:37:01 · 691 阅读 · 0 评论