NaLan_2020-优快云博客

原创模型的交叉验证与混淆矩阵（二分类）

交叉验证：就是在训练集中再抽出一部分当作测试，比如总数据本分成10分，训练集7份，测试集3份，在7份训练集中在抽出份当作测试，也就是说拿前6份训练时，把第7份当做测试。训练集有7份就要训练7次，这7份数据轮流当测试集，结果的准确性是这7次训练的平均值。

2023-07-04 17:05:43 622

原创集成算法 — 极限梯度提升算法XGB和GridSearchCV调参（Python3.6实现）

极限梯度提升算法 XGB（eXtreme Gradient Boosting）算法原理XGB是由GBDT发展而来，GBDT算法在上一篇博文“集成算法 — 梯度提升树GBDT”中已经介绍，两者的区别在于GBDT中预测值是由所有弱分类器上的预测结果的加权求和，其中每个样本上的预测结果就是样本所在的叶子节点的均值，而XGBT中的预测值是所有弱分类器上的叶子权重直接求和得到。调用模型#Booting框架参数，与GBDT相似n_estimators:多少次迭代learning_rate:silent:

2023-07-01 18:23:01 564

原创线性回归(Python3.6实现)

线性回归是一种监督学习模型，通过多个变量去预测的值，变量和的值是已知的，回归系数的值是未知的。变量可以是定量变量（连续变量），也可以是有序分类变量（比如一级、二级、三级…）或二分类变量（0和1）。误差为真实值和预测值之间的差值，服从N（0，θ² ）的高斯分布。线性回归的“”指的是面变量X和Y之间的线性关系，而不是说变量一定是线性的（连续的）。

2023-06-30 19:38:53 143

原创集成算法 — 梯度提升树GBDT（Python3.6实现）

梯度下降法 GBDT（Gradient Boosting Decision Tree）GBDT算法原理

2020-05-26 12:44:24 643

原创集成算法 — 随机森林（Python3.6实现）

RandomForest 随机森林在上一篇博文 “集成算法— 简介 + 决策树”中，简要介绍了集成算法的3种分类：Boosting、Bagging、Stacking以及它们经常使用的弱分类器—决策树（分类树和回归树）。集成算法可分为序列集成法和并行集成法：（1）序列集成法，是指参与训练的基础学习器按照顺序生成（如 AdaBoost），利用基础学习器之间的依赖关系，通过对之前训练中错误标记的样本赋值较高的权重，提高整体的预测效果；（2）并行集成法，是指其中参与训练的基础学习器并行生成（如 Random Fo

2020-05-22 22:26:15 694

原创集成算法 — 简介 + 决策树（Python3.6实现）

集成算法简介集成算法通过在数据上构建多个弱评估器，汇总所有弱评估器的建模结果，以获取比单个模型更好的回归或分类表现，集成算法主要分为3种：Bagging（减小方差）、Boosting（减小偏差）或stacking（改进预测）。弱分类器一般为K-NN分类器、朴素贝叶斯分类器、决策树分类器、logistic回归分类器等。泛化误差是衡量一个模型推广能力的标准，泛化误差大表示模型在预测测试数据集的时候效果不好。模型太简单会发生欠拟合，模型太复杂会发生过拟合，欠拟合和过拟合都会使泛化误差增大。泛化误差 =

2020-05-20 18:49:34 606

原创 KNN分类算法(Python3.6实现)

文章目录KNN分类算法原理新的改变功能快捷键合理的创建标题，有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能，丰富你的文章UML 图表FLowchart流程图导出与导入导出导入KNN分类算法原理K-Nearest Neighbor（KNN）分类算法的思路：如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中

2020-05-18 17:37:09 599

zhiziyi123的博客