机器学习
文章平均质量分 78
机器学习
TIM老师
Time Is Money
互联网大厂AI研究 & 8年时序算法 & LLM爱好者 & 量化初学者
欢迎点赞收藏关注交流讨论!
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
【机器学习】常见采样方法详解
数据采样是指从原始数据集中按照一定的方法选择部分数据用于分析或模型训练的过程。减小数据规模:处理海量数据时,通过采样减少计算资源消耗。处理数据不平衡:在分类任务中,某些类别样本稀少,通过采样平衡类别分布。提升模型泛化:通过不同的采样策略增强模型的鲁棒性。Bootstrapping与集成学习:用在如随机森林等集成模型中,生成多样化的训练集。理解并正确应用不同的采样方法,是提升机器学习模型性能的关键步骤之一。原创 2025-02-13 20:52:50 · 7653 阅读 · 0 评论 -
【对比】Pandas 和 Polars 的区别
选择 Pandas如果你的数据规模较小(<1GB),并且需要丰富的功能和成熟的生态系统。如果你需要与 Python 生态中的其他工具(如 Scikit-learn)无缝集成。如果你是初学者,希望快速上手数据分析。选择 Polars如果你的数据规模较大(>1GB),并且对性能要求较高。如果你需要处理实时或流式数据,或者需要高效的内存管理。如果你熟悉 Rust 或者愿意尝试新兴的高性能工具。原创 2025-02-18 16:00:23 · 4191 阅读 · 0 评论 -
scikit-learn 线性回归算法库小结
本文内容主要来自这篇文章。scikit-learn对于线性回归提供了比较多的类库,这些类库都可以用来做线性回归分析,本文就对这些类库的使用做一个总结,重点讲述这些线性回归算法库的不同和各自的使用场景。 线性回归的目的是要得到输出向量YY和输入特征XX之间的线性关系,求出线性回归系数θθ,也就是Y=XθY=Xθ。其中YY的维度为mx1,XX的维度为mxn,而θθ的维度为nx1原创 2025-05-21 15:28:59 · 1467 阅读 · 1 评论 -
Boosting算法学习
(1)提升算法(Boosting)是常用的有效的统计学习算法,属于迭代算法,它通过不断地使用一个弱学习器弥补前一个弱学习器的“不足”的过程,来串行地构造一个较强的学习器,这个强学习器能够使目标函数值足够小。(2)Bagging也是一种常用的统计学习方法,两者经常放在一起对比,它们不同的是,Bagging将在Bootstrap采样得到的不同训练子集上的弱学习器的结果综合考虑,各个弱学习器的构建过原创 2018-01-08 17:11:37 · 791 阅读 · 0 评论 -
特征构建:生成多项式特征
机器学习,一些比赛竞赛中,通常会给一定的特征数据进行分类或者回归预测。有时需要构建更多的特征,然后对特征再进行特征选择。通过增加一些输入数据的非线性特征来增加模型的复杂度通常是有效的。一个简单通用的办法是使用多项式特征,这可以获得特征的更高维度和互相间关系的项。这在 PolynomialFeatures 中实现:>>> import numpy as np>>> from sklea原创 2018-01-25 23:44:59 · 8438 阅读 · 0 评论 -
特征选择:常见方法总结
特征选择方法目的:减少特征数量、降维,使模型泛化能力更强,减少过拟合增强对特征和特征值之间的理解方法:一、方差选择法。(from sklearn.feature_selection import VarianceThreshold) a. 特征值需为离散型变量,若是连续型,需要连续变量离散化。b. 最简单。实用性差。可作为特征选择预处理。 问:为什么方差原创 2018-01-26 15:15:53 · 1153 阅读 · 0 评论 -
使用sklearn进行集成学习——理论
磨刀不误砍柴功,我们花了这么多时间来学习必要的理论,我强调一次:必要的理论!集成学习模型的调参工作的核心就是找到合适的参数,能够使整体模型在训练集上的准确度和防止过拟合的能力达到协调,从而达到在样本总体上的最佳准确度。有了本文的理论知识铺垫,在下篇中,我们将对Random Forest和Gradient Tree Boosting中的每个参数进行详细阐述,同时也有一些小试验证明我们的结论。原创 2018-02-27 10:14:13 · 575 阅读 · 1 评论
分享