清木!
前路浩浩荡荡,万物皆可期待
展开
-
数据清洗:异常值检测方法
数据清洗,一些常见的异常检测方法并删除异常值所在的行。原创 2024-04-23 19:57:36 · 573 阅读 · 0 评论 -
5.5 DataFrame.rolling()创建滚动窗口对象
DataFrame.rolling() 是 pandas 中用于创建滚动窗口对象的函数,它可以对时间序列或其他类型的数据进行滚动计算。下面是该函数的一些参数说明:window: 表示滚动窗口的大小,可以是整数,表示窗口的长度,或者一个日期偏移量对象,表示时间窗口的长度。: 可选参数,表示每个滚动窗口中需要具有的非缺失值的最小数量,如果不满足这个条件,则结果将被标记为缺失值。center: 可选参数,表示是否将窗口设置为居中,默认为 False。win_type。原创 2023-12-18 22:01:10 · 671 阅读 · 0 评论 -
SHAP:Python的可解释机器学习库
为了理解单个feature如何影响模型的输出,可以将该feature的SHAP值与数据集中所有样本的feature值进行比较。由于SHAP值表示一个feature对模型输出中的变动量的贡献,下面的图表示随着特征Feature 5变化的预测房价(output)的变化。SHAP模型的核心思想是将每个特征的值与一个“参考值”进行比较,并通过不断添加特征来计算其对预测结果的贡献。SHAP value最大的优势是SHAP能对于反映出每一个样本中的特征的影响力,而且还表现出影响的正负性。原创 2023-12-08 21:05:15 · 2192 阅读 · 0 评论 -
机器学习-特征选择:使用Lassco回归精确选择最佳特征
Lasso回归,也称为最小绝对收缩和选择算子回归,是一种线性回归方法。其基本原理是在普通最小二乘法的基础上,引入L1正则化项,通过最小化目标函数来实现模型的特征选择和系数稀疏化。Lasso回归的目标函数如下所示: minimize ||Y - Xβ||^2 + λ||β||₁ 其中,Y是观测值向量,X是特征矩阵,β是待估计的回归系数向量,λ是控制正则化强度的超参数。L1正则化项λ||β||₁在目标函数中起到了关键作用。它引入了稀疏性,即使得一些特征的系数被压缩为零,从而实现了自动的特征选择。原创 2023-11-14 15:06:58 · 1667 阅读 · 0 评论 -
波士顿房价预测分析----以线性回归LinearRegression为例
波士顿房价数据集包括506个样本,每个样本包括13个特征变量和该地区的平均房价,房价显然和多个特征变量相关,先选择一元线性回归与多个特征建立线性方程,观察模型预测的好坏,再选择多元线性回归进行房价预测。13个特征变量缩写含义CRIM城镇人均犯罪率ZN住宅用地所占比例INDUS城镇中非住宅用地所占比例CHAS虚拟变量,用于回归分析NOX环保指数RM每栋住宅的房间数AGE1940 年以前建成的自住单位的比例DIS距离 5 个波士顿的就业中心的加权距离RAD。原创 2023-11-14 13:43:26 · 591 阅读 · 0 评论 -
常用数据集python
鸢尾花数据;乳腺癌数据集、波士顿房价数据集包括506个样本,每个样本包括13个特征变量和该地区的平均房价,房价显然和多个特征变量相关,先选择一元线性回归与多个特征建立线性方程,观察模型预测的好坏,再选择多元线性回归进行房价预测。数据集特征标签‘feature_names’包含4个属性(数据集的列):Sepal Length,Sepal Width,Petal Length,Petal Width。原创 2023-10-07 15:25:48 · 457 阅读 · 0 评论 -
AdaBoost之AdaBoostRegressor参数详解以及调参
sklearn之AdaBoostRegressor官网弱回归学习器。同样地,可以选择任何一个回归学习器,同时也需要支持样本权重。常用的是CART回归树和神经网络MLP (Multi-layer Perceptron,多层感知器),默认是使用CART回归树DecisionTreeRegressor。 The base estimator from which the boosted ensemble is built. If None,原创 2023-09-20 14:34:33 · 1086 阅读 · 0 评论 -
ExtraTrees之ExtraTreesRegressor参数详解以及调参
如果是浮点数,那么 min_samples_split 是一个分数,而 ceil(min_samples_split * n_samples) 是每个拆分的最小样本数。支持的标准是均方误差的“squared_error”,它等于作为特征选择标准的方差减少,以及平均绝对误差的“absolute_error”。如果是浮点数,那么 min_samples_leaf 是分数,而 ceil(min_samples_leaf * n_samples) 是每个节点的最小样本数。一个数组,形状为[n_features]。原创 2023-10-07 20:57:49 · 1359 阅读 · 0 评论 -
GBDT之GradientBoostingRegressor参数详解以及调参
GBDT官网{‘squared_error’, ‘absolute_error’, ‘huber’, ‘quantile’}, default=’squared_error’损失函数, ‘ls’:此时损失函数为平方损失函数。float, default=0.1 学习率int, default=100基学习器的个数,这里是树的棵数float, default=1.0取值在(0, 1)之间,取原始训练集中的一个子集用于训练基础决策树{‘friedman_mse’, ‘squared_error’}, d原创 2023-09-20 15:55:29 · 1229 阅读 · 0 评论 -
LightGBM之LGBMRegressor()参数详解以及调参
LightGBMLight Gradient Boosting Machine)是一种梯度提升框架,它使用决策树作为基学习器。LightGBM 可以说是在 XGBoost 上做的优化。LightGBM 为高效并行计算而生,它的 Light 体现在以下几个点上:更快的训练速度更低的内存使用支持单机多线程,多机并行计算,以及 GPU 训练能够处理大规模数据。原创 2023-09-19 13:29:53 · 2968 阅读 · 0 评论 -
RandomForest之RandomForestRegressor参数详解以及调参
sklearn之RandomForest1、参数(1)n_estimators 默认值为100,此参数指定了弱分类器的个数(决策树的个数)。设置的值越大,精确度越好,但是当 n_estimators 大于特定值之后,性能就会越差。 参数criterion 是字符串类型,默认值为 ‘mse’,是衡量回归效果的指标。可选的还有‘mae’ 。 数值型,默认值None。设置树的最大深度,这样建树时,会使每一个叶节点只有一个类别,或是达到min_samples_split。这是与剪枝相关的参数,设原创 2023-09-20 10:42:56 · 3043 阅读 · 0 评论 -
SVM之SVR参数详解以及调参
1.指定模型在训练时,能占用的最大RAM空间(PS. 经过实验,当大小设置超过2000MB时,训练时长反而会增加,这应该是一个BUG),在2000MB以内,不超过其所需最大内存,则不会降低训练速度,也不会增加。ndarray,一维数组, (n_classes * (n_classes - 1) / 2, ) decision_funciton 中的常量。优点: 可以拟合出复杂的分割超平面;3.支持向量的个数对 ϵ的大小敏感,即 ϵ 的值越大,支持向量的个数越少,反之,支持向量的个数越多。原创 2023-11-18 21:42:32 · 3487 阅读 · 0 评论 -
XGBoost之XGBRegressor参数详解以及调参过程
reg_alpha=0, # 默认为0,控制模型复杂程度的权重值的 L1 正则项参数,参数值越大,模型越不容易过拟合。reg_lambda=1, # 默认为1,控制模型复杂度的权重值的L2正则化项参数,参数越大,模型越不容易过拟合。colsample_bytree=1, # 每次拟合一棵树之前,决定使用多少个特征,参数默认1,取值范围(0, 1]。min_child_weight=1, # 可以理解为叶子节点最小样本数,默认1;原创 2023-04-24 11:11:04 · 3746 阅读 · 0 评论 -
自动化机器学习AutoML之flaml:利用flaml框架自动寻找最优算法及其对应最佳参数python
机器学习算法建模的流程大致为:数据准备,包括数据收集,数据清理;特征工程,包括特征提取,特征构建,特征选择;模型生成,包括模型选择,模型优化(调参);模型评估。再往后就是模型部署,运行监控了。现有自动化的机器学习包通常都可以自动完成整个流程的部分工作,尤其是模型建立+模型优化+模型评估,然后选出最优模型。而理想化的机器学习算法应用应该是这样子的——只需要提供数据,其它什么数据清理、特征选择、模型优化、模型评估、部署和监控,全部交给代码自动完成。原创 2023-10-07 20:01:54 · 1031 阅读 · 0 评论 -
随机搜索RandomizedSearchCV参数方法详细解析
RandomizedSearchCV的sklearn官方网址在搜索超参数的时候,如果超参数个数较少(三四个或者更少),那么我们可以采用网格搜索,一种穷尽式的搜索方法。但是当超参数个数比较多的时候,我们仍然采用网格搜索,那么搜索所需时间将会指数级上升。所以有人就提出了随机搜索的方法,随机在超参数空间中搜索几十几百个点,其中就有可能有比较小的值。这种做法比上面稀疏化网格的做法快,而且实验证明,随机搜索法结果比稀疏网格法稍好。原创 2023-06-14 09:45:21 · 2403 阅读 · 0 评论 -
网格搜索GridSearchCV参数方法详细解析
GridSearchCV的sklearn官方网址GridSearchCV,它存在的意义就是自动调参,只要把参数输进去,就能给出最优化的结果和参数。但是这个方法适合于小数据集,一旦数据的量级上去了,很难得出结果。这个时候就是需要动脑筋了。数据量比较大的时候可以使用一个快速调优的方法——坐标下降。它其实是一种贪心算法:拿当前对模型影响最大的参数调优,直到最优化;再取下一个影响最大的参数调优。如此下去,直到所有的参数调整完毕。原创 2023-06-13 22:20:26 · 1805 阅读 · 0 评论 -
相关系数python实现
bool, 可选,如果rowvar为True(默认值),则每行代表一个变量,并在列中显示。:array_like,包含多个变量和观测值的1-D或2-D数组,x的每一行代表一个变量,每一列都是对所有这些变量的单一观察。其中,Cov(X,Y)为X与Y的协方差,Var[X]为X的方差,Var[Y]为Y的方差。注: p值越小,表示相关系数越显著,一般p值在500个样本以上时有较高的可靠性。:array_like,可选,另外一组变量和观察,y具有与x相同的形状。: float,皮尔逊相关系数,[-1,1]之间。原创 2023-04-17 20:03:18 · 3720 阅读 · 0 评论 -
相关性分析-Pearson, Spearman, Kendall 三大相关系数+绘制热力图
Pearson, Spearman, Kendall 三类相关系数是统计学上的三大重要相关系数,表示两个变量之间变化的趋势方向和趋势程度。下面对这三类系数做简单的介绍。原创 2023-09-12 21:17:30 · 2570 阅读 · 0 评论 -
回归模型评价指标R2_score
R2_score = 1,样本中预测值和真实值完全相等,没有任何误差,表示回归分析中自变量对因变量的解释越好。R2_score不是r的平方,也可能为负数(分子>分母),模型等于盲猜,还不如直接计算目标变量的平均值。R2_score,即决定系数,反映因变量的全部变异能通过回归关系被自变量解释的比例。即估计值与平均值的误差,反映自变量与因变量之间的相关程度的偏差平方和。即平均值与真实值的误差,反映与数学期望的偏离程度。即估计值与真实值的误差,反映模型拟合程度。表示真实观测值的平均值,用。表示真实的观测值,用。原创 2023-06-05 15:54:42 · 3383 阅读 · 0 评论