
机器学习
文章平均质量分 92
带带琪宝
这个作者很懒,什么都没留下…
展开
-
决策树(部分)
信息熵与概率是一个事物的一体两面,概率指“事件多大可能发生”,表示事件发生的“确定性”,而信息熵指“事件有几种可能性”表示时间发生的“不确定性”。反映的是事情复杂、混乱的程度。统计意义上来说这是一种加权平均,表示整体的选择个数。信息熵还可以用来进行信息编码,可用于计算信息编码的平均长度由于日常所得的数据中既有有效数据又含噪音,选择特征的方法包括信息增益(Information Gain)、基尼指数(Gini Index)和增益率(Gain Ratio)等。原创 2024-11-05 14:23:51 · 1090 阅读 · 0 评论 -
机器学习——几个线性模型的简介
线性说白了就是初中的一次函数的一种应用,根据不同的(x,y)拟合出一条直线以预测,从而解决各种分类或回归问题,假设有 n 个属性(自变量),xi 为 x 在第 i 个属性上的取值,则其形式为: 模型有系数 、 、...以及误差项 ,可写为: 线性回归拟合有一些重要的假设,包括: 拿一元线性回归举例(一个自变量一个因变量): 机器学习过程中我们的目标是最小化残差平方和来估计模型系数的值,均方误差对应了常用的“欧氏距离”(Euclidean dist原创 2024-04-03 15:50:08 · 1497 阅读 · 0 评论 -
机器学习基础——模型评估与选择(部分)
使用上述流程理解,其中a 为预测错误的个数,m为使用的样本数量错误率(error rate):分类错误的样本数占样本总数的比例。即在 m 个样本中有 a 个样本分类错误,则错误率E = a / m。精度=1 - a / m,即精度 = 1 - 错误率。误差(error):学习器的预测输出与样本之间的差异。其中:学习器在训练集上的误差称为“训练误差(training error)”或“经验误差(empirical error)”,在新样本上的误差称为“原创 2024-03-26 15:48:47 · 1629 阅读 · 0 评论 -
机器学习——绪论总结
例:只有一个属性,在该属性上的所有可能取值组成的集合 [1,2,3,...] 构成一维属性空间,若有多个维度,如一个人的年龄,身高,体重构成一个属性空间为三维[[1,2,3,...],[171,181,182,...],[140,152,110,...]]:使用西瓜三个特征——色泽,根蒂,敲声三个属性,作为三个坐标轴,每个西瓜对应一个空间点(一个原点指向该点的坐标向量),每个这种示例称为一个特征向量。:又称特征,描述事物在某个方面的具体表现,常常在数据中的表现形式为数据集的某一列,一个特征表示一列数据。原创 2024-01-30 12:00:21 · 1075 阅读 · 0 评论 -
机器学习:什么是监督学习和无监督学习
介绍:监督学习是指(x->y)映射的机器学习算法,监督即理解为:已知正确答案对其学习结果进行监督原理:提供算法示例以供学习,通过查看 x->y 的正确示例,使得算法最终达到例子:监督学习主要包括,如一个判断邮件是否为垃圾邮件、广告公司根据客户数据判断是否会点击广告、根据房子的面积拟合合适的线条预测房价,等等。原创 2024-01-19 17:00:59 · 1189 阅读 · 1 评论