
机器学习
文章平均质量分 81
以实战为线索,探索学习机器学习。
bug是什么
这个作者很懒,什么都没留下…
展开
-
机器学习之不均衡样本处理方法
比如在分类任务中,不同类别的训练样例数目常存在差异大的情况,这时样本不均衡往往会出现模型对样本数较多的类别过拟合、对较少的类别欠拟合的现象,即总是将样本分到样本数较多的分类类别中。在实际的数据中,不但会存在样本不均衡问题,而且还经常伴随着不同类别的样本重叠问题,如果直接进行SMOTE过采样,虽然minority classes样本数目增多了,但是样本的重叠反而加剧了,很明显这并不利于分类。当得到Tomek Link之后,移去所有的Tomek Link并且反复进行,会使样本的重叠大大减小,从而有利于分类。原创 2024-07-14 10:32:39 · 1122 阅读 · 0 评论 -
机器学习之常见的数据分布
伯努利分布、二项分布、泊松分布、正态分布、指数分布原创 2024-07-14 10:56:22 · 589 阅读 · 0 评论 -
机器学习之特征融合
模型优化方法:研究模型学习曲线,判断模型是否过拟合或者欠拟合并做出相应的调整;对模型权重参数进行分析,对于权重绝对值高或低的特征,可以进行更细化的工作,也可以进行特征组合;进行Bad-Case分析,针对错误的例子确定是否还有地方可以修改挖掘;进行模型融合。原创 2024-07-13 22:43:58 · 781 阅读 · 0 评论 -
机器学习之缺失值处理
数据产生缺失,存在多种因素,录入数据时的疏忽或错误,例如错过数据记录、输入错误、设备故障等。由于设备故障、网络问题或存储介质损坏,导致数据丢失。从不同系统或文件中导入数据时的格式或解析错误。原创 2024-07-13 23:48:50 · 576 阅读 · 0 评论 -
机器学习之特征优化
合成特征(Synthetic Features)是通过对现有特征进行变换、组合或衍生得到的新特征。这些新特征可以捕捉原始数据中隐含的模式或关系,从而提升模型的表现和预测能力。合成特征在特征工程中起着重要作用,特别是在提高模型的复杂性和表达能力方面。包括以下类型:(1)将一个特征与其本身或其他特征相乘(称为特征组合)(2)两个特征相除(3)对连续特征进行分桶(分箱),以分为多个区间分箱。原创 2024-07-08 22:04:18 · 962 阅读 · 0 评论 -
机器学习之模型调参
调参(Hyperparameter Tuning)是机器学习中优化模型性能的关键步骤之一。它指的是对模型的超参数进行选择和优化,以便在验证集或测试集上获得最佳的模型性能。超参数是模型在训练之前需要设置的参数,它们不同于模型在训练过程中学习到的参数(如权重和偏差)。并介绍了调参的方法,网格搜索。验证曲线和学习曲线的概念。原创 2024-07-08 16:03:25 · 677 阅读 · 0 评论 -
机器学习之交叉验证
交叉验证(Cross Validation)是一种用于评估机器学习模型性能的统计方法,它通过将数据集划分为多个子集,通过重复训练和验证过程来评估模型的泛化能力。交叉验证能够有效地避免模型过拟合,并提供更可靠的模型性能评估。主要包含简单交叉验证、K折交叉验证、留一法交叉验证和留P法交叉验证。原创 2024-07-07 19:48:17 · 1121 阅读 · 0 评论 -
机器学习之模型的泛化与正则化
本文介绍了模型的泛化以及正则化内容,详细介绍了L1正则化与L2正则化,最后介绍了回归模型的评估指标和调用方法。原创 2024-07-07 19:19:12 · 857 阅读 · 0 评论 -
机器学习之模型评估的概念和方法
本文主要介绍了机器学习中关于模型评估的欠拟合和过拟合问题,并用多项式回归改善了线性回归中的欠拟合问题。原创 2024-07-06 17:09:37 · 641 阅读 · 0 评论 -
机器学习之模型训练
机器学习中回归模型训练方法,包含线性回归、k近邻回归、决策树回归、集成学习回归(随机森林、lightGBM回归),并用python实现各种回归模型的调用方法。原创 2024-07-06 12:52:00 · 353 阅读 · 0 评论