Python 机器学习视频课 - 2. Scikit-Learn 中

本节课程深入讲解Scikit-Learn中的元估计器,包括ensemble集成学习、multiclass多类别分类、multioutput多输出分类、model_selection模型选择和pipeline数据预处理流水线。通过具体示例如BaggingClassifier、AdaBoostClassifier等,展示如何使用这些高级API提升机器学习效率。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

这是 Python 数据机器学习系列的第二节《Scikit-Learn 中》

  1. Scikit-Learn 上

Python 数据可视化

  1. Matplotlib 上

  2. Matplotlib 下

  3. Seaborn 上

  4. Seaborn 中

  5. Seaborn 下

  6. Bokeh

  7. Plotly

  8. Cufflinks

  9. PyEcharts

Python 数据分析

  1. NumPy 上

  2. NumPy 下

  3. Pandas 上

  4. Pandas 下

  5. SciPy 上

  6. SciPy 下

  7. Pandas 时间序列

  8. Pandas 高频数据采样

  9. 默顿模型计量经济资本

  10. LSMC 定价美式和百慕大期权

  11. 负油价和负利率模型

  12. Nelson-Siegel 构建债券收益率曲线

  13. 外汇交易组合保证金制定系统

  14. FR007 利率掉期定价和曲线拔靴

  15. 量化投资 - 向量化回测

Python 基础

  1. 编程概览

  2. 元素型数据

  3. 容器型数据

  4. 流程控制:条件-循环-异常处理

  5. 函数上:低阶函数

  6. 函数下:高阶函数

  7. 类和对象:封装-继承-多态-组合

  8. 字符串专场:格式化和正则化

  9. 解析表达式:简约也简单

  10. 生成器和迭代器:简约不简单

  11. 装饰器:高端不简单

Sklearn 中核心 API 接口是估计器,而高级 API 接口是元估计器 (meta-estimator)。元估计器由很多基估计器 (base estimator) 组成。类比高阶函数将低阶函数当参数,元估计器将估计器当参数,其代码范式如下:

    meta_estimator( base_estimator )

本课讨论五种元估计器,它们分别是

  1. 用来集成子模型的 ensemble

  2. 用来多类别和多标签分类的 multiclass

  3. 用来多输出分类的 multioutput

  4. 用于模型选择的 model_selection

  5. 用于数据预处理流水线的 pipeline

本课会用以下 Sklearn 中的模型来举例说明如何使用上述五种元估计器:

  • ensemble.BaggingClassifier

  • ensemble.AdaBoostClassifier

  • ensemble.VotingClassifier

  • ensemble.StackingClassifier

  • multiclass.OneVsOneClassifier

  • multiclass.OneVsRestClassifier

  • multioutput.MultiOutputClassifier

  • model_selection.GridSearchCV

  • model_selection.RandomizedSearchCV

  • pipeline.Pipeline

  • pipeline.FeatureUnion

集成估计器

集成估计器是用来做集成学习,该估计器里面有若干个分类器 (classifier) 或回归器 (regressor)。

  • 分类器统计每个子分类器的预测类别数,再用「多数投票」原则得到最终预测。

  • 回归器计算每个子回归器的预测平均值。

多类估计器

多类估计器可以处理多类别 (multi-class) 和多标签 (multi-label) 的分类问题。

多输出估计器

多输出估计器可以处理多输出 (multi-output) 的分类问题。

模型选择估计器

模型选择主要用于评估模型表现,常见的模型选择估计器包括:

  • cross_validate:评估交叉验证的表现。

  • learning_curve:建立学习曲线。

  • GridSearchCV:用交叉验证方法从网格中一组超参数搜索出最佳超参数。

  • RandomizedSearchCV:用交叉验证方法从一组随机超参数分布搜索出最佳超参数。

流水线估计器

流水线估计器把多个估计器串联 (Pipeline) 或并联 (FeatureUnion) 的方式组成一条龙服务。用好了它真的能大大提高效率。

想学就开始吧!

绝不会让你失望!

付费用户(付 1 赠 1)可以获得:

  • 观看课程视频 (97 分钟)

  • Python 代码 (Jupyter Notebook)

Jupyter Notebook

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值