
机器学习学习笔记
文章平均质量分 83
zqqcee
博客已迁移至:https://luckycc.cc
展开
-
机器学习——集成学习
集成学习我们之前学习的模型都是单一的,独立的。对于整体表现比较差点数据可能在某一方面超过“最好”的模型表现。因此提出将数据进行组合,集成学习以提升训练精度。袋装模型 Bagging从一个数据集,产生需对随机的数据子集。在做预测时,对这些数据子集都投入到模型中进行预测,在进行组合投票。随机森林样本随机:用Bagging的方式随机选择N个样本。特征随机:从所有属性d中选择k个属性,然后从K个属性中选择最佳分割属性作为节点建立CART决策树(Gini系数)随机森林建立的是树模型,重复以上两个步骤m次原创 2021-06-23 15:03:09 · 467 阅读 · 0 评论 -
机器学习——决策树
决策树决策树划分关键: 如何选择最优的划分属性ID3C4.5CART信息增益信息增益信息增益率悉尼指数信息熵表示随机事件的不确定性(信息量)期望越小概率的事情发生了产生的信息量越大,即熵越大越大概率的事情发生了产生的信息量越小,即熵越小E(D)=−∑i=0∣y∣Pilog2Pi∣y∣:有几种分类,Pi:第i种分类的概率E(D) = -\sum_{i=0}^{|y|}P_i\log_2P_i\\|y|:有几种分类,P_i:第i种分类的概率E(D)=−i=原创 2021-06-23 15:01:27 · 206 阅读 · 0 评论 -
机器学习——分类与聚类
分类KNN - K近邻算法概念一个样本与数据集中的k个样本最相似, 如果这k个样本中的大多数属于某一个类别, 则该样本也属于这个类别。也就是说,该方法在确定分类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。KNN方法在类别决策时,只与极少量的相邻样本有关。KNN算法最简单粗暴的就是将预测点与所有点距离(这里未知实例与所有已知实例的距离使用欧氏距离进行计算)进行计算,然后保存并排序,选出前面K个值看看哪些类别比较多。过拟合与欠拟合K越小越容易过拟合,当K=1时,这时只根据原创 2021-06-23 14:59:26 · 1304 阅读 · 0 评论 -
机器学习——贝叶斯定理
贝叶斯定理由来古典概率学派认为概率是客观存在的,而贝叶斯学派认为概率是一个人对于一件事的信念强度,概率是主观的。定义贝叶斯定理换一种更便于理解的公式陈列方式:P(类别∣特征)=P(特征∣类别)P(特征)P(特征)P(类别|特征) = \frac{P(特征|类别)P(特征)}{P(特征)}P(类别∣特征)=P(特征)P(特征∣类别)P(特征)朴素贝叶斯P(H∣X)=P(X∣H)P(H)P(X)P(X∣H)=P(X1∣H)P(X2∣H)...P(Xn∣H)=P(X1∣H)P(X1)P(原创 2021-06-03 11:10:20 · 979 阅读 · 0 评论 -
机器学习——人工神经网路
人工神经网络神经网络具有不可解释性,可以将人工神经网络训练出的模型看作是一个黑盒。单层感知器基本概念计算出X=wTx+b后,放入激活函数sign(X)中,得到输出值Y(激活函数的输出值就是该神经元的输出)计算出X=w^Tx+b后,放入激活函数sign(X)中,得到输出值Y(激活函数的输出值就是该神经元的输出)计算出X=wTx+b后,放入激活函数sign(X)中,得到输出值Y(激活函数的输出值就是该神经元的输出)学习规则但是这样做会出现一个问题:每输入一个x就要更新一次w。当样本量较多时原创 2021-06-03 10:56:03 · 1000 阅读 · 0 评论 -
机器学习——逻辑回归,岭回归与LASSO,模型评价指标学习笔记
逻辑回归 —— 用于解决分类问题误差计算 原来计算预测值,线性计算结果如果小于零,预测值为0;如果原来计算预测值为1,预测值就为1。结果只有0和1两种取值,但是这样如果样本错误分类,误差为1,如果样本正确分类,误差为0。这种误差计算方式太为武断,且无法反映误差大小。如下:h(x)={0θTx<01θTx>0h(x) = \begin{cases}0 && \theta^Tx<0\\1 && \theta^Tx>0\\\end{cas原创 2021-05-19 19:41:45 · 3038 阅读 · 0 评论