自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(7)
  • 收藏
  • 关注

原创 主成分分析(PCA)

在许多领域的数据的分析和处理中,往往会有许多复杂的变量,变量与变量之间通常还存在着相关性,要从大量的变量中提取出能反映事物特征的信息是极其困难的,对单个的变量分析不全面,并且会损失信息,造成错误的结论。主成分分析(PCA)便是通过数学降维,找出最能决定数据特性的主元成分的数据分析方法,用较少的综合指标,揭示隐藏在多维复杂数据变量背后的简单结构,得到更为科学有效的数据信息。P便是由基向量组成的变换矩阵,经过线性转换,X的坐标便转换到新的基向量所决定的空间中的坐标Y,从几何上看,Y是X在新的空间中的投影。

2023-12-31 22:47:20 468 1

原创 模型评估与选择

学习器把训练样本学习的“太好” ,将训练样本本身的特点,当做所有样本的一般性质,导致泛化性能下降。

2023-12-20 21:06:48 863 1

原创 Logistic 回归

Logistic回归是在线性回归的最后一步的基础上引入了激活函数—sigmoid函数 ,将回归问题变成了0-1的分类问题,比如一封邮件是否为垃圾邮件,此瓜是否是好瓜等二分类问题。

2023-12-18 20:36:31 394 1

原创 朴素贝叶斯

已知两个独立事件A和B,事件B发生的前提下,事件A发生的概率可以表示为P(A|B),即:P(A) 称为”先验概率”,即在B事件发生之前,我们对A事件概率的一个判断。如:正常收到一封邮件,该邮件为垃圾邮件的概率就是“先验概率”。P(A|B)称为”后验概率”, 即在B事件发生之后,我们对A事件概率的重新评估。如:邮件中含有“中奖”这个词,该邮件为垃圾邮件的概率就是“后验概率”。

2023-12-14 12:45:00 445 1

原创 决策树的剪枝和连续值处理

剪枝”是决策树学习算法对付“过拟合”的主要手段,可一定程度避免因决策分支过多,以致于把训练集自身的一些特点当做所有数据都具有的一般性质而导致的“过拟合”。

2023-12-14 09:15:00 284 1

原创 决策树的使用

上边中有3个哈密瓜的属性,如何综合利用这些属性去判断哈密瓜的好坏?决策树的做法是每次选择一个属性进行判断,如果不能得出结论,继续选择其他属性进行判断,直到能够“肯定地”判断出哈密瓜的好坏或者是上述属性都已经使用完毕。比如说我们要判断一个哈密瓜的好坏,我们可以先根据哈密瓜的气味进行判断,如果不能得出结论,再根据形状相似的瓜重量作判断,这样以此类推,直到可以得出结论为止。决策过程中提出的每个判定问题都是对某个属性的“测试”;

2023-12-13 23:30:00 129

原创 KNN应用

优点 1. 可以处理分类问题,算法简单易懂;2. 可以免去训练过程;3. KNN还可以处理回归问题,也就是预测。缺点 1. 效率低,每一次分类都要对训练数据进行计算;2. 对训练数据依赖度特别大,过拟合、欠拟合问题难以权衡;3. 存在维数灾难问。

2023-12-13 19:08:20 78

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除