
数据挖掘-机器学习
文章平均质量分 95
主要讲解了数据探索性分析:查看变量间相关性以及找出关键变量;数据特征工程对数据精进:异常值处理、归一化处理以及特征降维;在进行归回模型训练涉及主流ML模型:决策树、随机森林,lightgbm等。同时重丶讲解模型验证、特征优化、模型融合等。
助力你快速数学建模baseline实现,拿奖稳稳的!
优惠券已抵扣
余额抵扣
还需支付
¥19.90
¥99.00
购买须知?
本专栏为图文内容,最终完结不会低于15篇文章。
订阅专栏,享有专栏所有文章阅读权限。
本专栏为虚拟商品,基于网络商品和虚拟商品的性质和特征,专栏一经购买无正当理由不予退款,不支持升级,敬请谅解。
汀、人工智能
本博客将不定期更新关于机器学习、强化学习、数据挖掘以及NLP等领域相关知识,以及分享自己学习到的知识技能,感谢大家关注!
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
【机器学习入门与实践】合集入门必看系列,含数据挖掘项目实战:模型融合、特征优化、特征降维、探索性分析等,实战带你掌握机器学习数据挖掘。
本人最近打算整合ML、DRL、NLP等相关领域的体系化项目课程,方便入门同学快速掌握相关知识。声明:部分项目为网络经典项目方便大家快速学习,后续会不断增添实战环节(比赛、论文、现实应用等)上述机器学习项目为最经典的项目,但由于原课程依赖的算法库和算子替换导致部分程序无法运行,本次贡献点在于按照自己思路进行项目整合,其次是对bug修复保证案例全部调通,原创 2023-04-16 23:21:59 · 1656 阅读 · 3 评论 -
Python 探索性数据分析工具(PandasGUI,Pandas Profiling,Sweetviz,dtale)以及学术论文快速作图science.mplstyle
如果探索的数据集侧重数据展示,可以选PandasGUI;如果只是简单了解基本统计指标,可以选择和Sweetviz;如果需要做深度的数据探索,那就选择dtale。原创 2022-10-11 16:59:25 · 1121 阅读 · 1 评论 -
异常检测:探索数据深层次背后的奥秘《下篇》---高维数据异常检测:孤立森林
异常检测:探索数据深层次背后的奥秘《下篇》---高维数据异常检测:孤立森林原创 2023-09-25 10:27:00 · 262 阅读 · 0 评论 -
异常检测:探索数据深层次背后的奥秘《中篇》
异常检测:探索数据深层次背后的奥秘《中篇》原创 2023-09-22 10:43:54 · 227 阅读 · 0 评论 -
异常检测:探索数据深层次背后的奥秘《上篇》
异常检测:探索数据深层次背后的奥秘《上篇》原创 2023-09-21 14:24:56 · 230 阅读 · 0 评论 -
数据挖掘18大算法实现以及其他相关经典DM算法:决策分类,聚类,链接挖掘,关联挖掘,模式挖掘、图算法,搜索算法等
数据挖掘18大算法实现以及其他相关经典DM算法:决策分类,聚类,链接挖掘,关联挖掘,模式挖掘。图算法,搜索算法等原创 2023-07-03 16:53:02 · 2724 阅读 · 0 评论 -
人工智能创新挑战赛:海洋气象预测Baseline[4]完整版(TensorFlow、torch版本)含数据转化、模型构建、MLP、TCNN+RNN、LSTM模型训练以及预测
2021 “AI Earth” 人工智能创新挑战赛,以 “AI 助力精准气象和海洋预测” 为主题,旨在探索人工智能技术在气象和海洋领域的应用。本赛题的背景是厄尔尼诺 - 南方涛动(ENSO)现象。ENSO现象是厄尔尼诺(EN)现象和南方涛动(SO)现象的合称,其中厄尔尼诺现象是指赤道中东太平洋附近的海表面温度持续异常增暖的现象,南方涛动现象是指热带东太平洋与热带西太平洋气压场存在的气压变化相反的跷跷板现象。原创 2023-06-07 11:06:14 · 1249 阅读 · 0 评论 -
“AI Earth”人工智能创新挑战赛:助力精准气象和海洋预测Baseline[3]:TCNN+RNN模型、SA-ConvLSTM模型
【机器学习入门与实践】入门必看系列,含数据挖掘项目实战:模型融合、特征优化、特征降维、探索性分析等,实战带你掌握机器学习数据挖掘专栏详细介绍:【机器学习入门与实践】合集入门必看系列,含数据挖掘项目实战:数据融合、特征优化、特征降维、探索性分析等,实战带你掌握机器学习数据挖掘。本专栏主要方便入门同学快速掌握相关知识。声明:部分项目为网络经典项目方便大家快速学习,后续会不断增添实战环节(比赛、论文、现实应用等)专栏订阅:数据挖掘-机器学习专栏主要讲解了数据探索性分析:查看变量间相关性以及找出关键变量;数据特征原创 2023-06-06 10:13:38 · 1609 阅读 · 0 评论 -
“AI Earth”人工智能创新挑战赛:助力精准气象和海洋预测Baseline[2]:数据探索性分析(温度风场可视化)、CNN+LSTM模型建模
该方案在数据处理部分采用了滑窗来构造数据集,这是序列预测问题中常用的增加数据量的方法。另外,该方案中增加了一组月份特征,个人认为在时序场景中增加的这组特征收益不高,更多的是通过模型挖掘序列中的依赖关系,并且由于维度增加会使得训练数据占用的资源大大增加,对模型的效果提升不明显。不过在其他场景中这种特征构造方法仍然是值得借鉴的。原创 2023-06-06 10:09:43 · 2024 阅读 · 1 评论 -
“AI Earth”人工智能创新挑战赛:助力精准气象和海洋预测Baseline[1]、NetCDF4使用教学、Xarray 使用教学,针对气象领域.nc文件读取处理
本赛题的目标,就是基于历史气候观测和模式模拟数据,利用T时刻过去12个月(包含T时刻)的时空序列,预测未来1 - 24个月的Nino3.4指数。NetCDF4支持按层级的组(Groups)来组织数据,类似于文件系统中的目录,Groups中可以包含Variables、Dimenions、Attributes对象以及其他Groups对象,Dataset会创建一个特殊的Groups,称为根组(Root Group),类似于根目录,使用Dataset.createGroup方法创建的组都包含在根组中。原创 2023-06-06 10:06:14 · 389 阅读 · 0 评论 -
数据挖掘实践(金融风控):金融风控之贷款违约预测挑战赛(下篇)[xgboots/lightgbm/Catboost等模型]--模型融合:stacking、blending
集成模型内置的cv函数可以较快的进行单一参数的调节,一般可以用来优先确定树模型的迭代次数数据量较大的时候(例如本次项目的数据),网格搜索调参会特别特别慢,不建议尝试集成模型中原生库和sklearn下的库部分参数不一致,需要注意,具体可以参考xgb和lgb的官方APIxgb原生库APIsklearn库下xgbAPIlgb原生库APIsklearn库下lgbAPI由于相关算法原理篇幅较长,本文推荐了一些博客与教材供初学者们进行学习。简单平均和加权平均是常用的两种比赛中模型融合的方式。其优点是快速、简单。原创 2023-05-17 14:31:19 · 731 阅读 · 1 评论 -
数据挖掘实践(金融风控):金融风控之贷款违约预测挑战赛(上篇)[xgboots/lightgbm/Catboost等模型]--模型融合:stacking、blending
赛题以金融风控中的个人信贷为背景,要求选手根据贷款申请人的数据信息预测其是否有违约的可能,以此判断是否通过此项贷款,这是一个典型的分类问题。通过这道赛题来引导大家了解金融风控中的一些业务背景,解决实际问题,帮助竞赛新人进行自我练习、自我提高。赛题以预测金融风险为任务,数据集报名后可见并可下载,该数据来自某信贷平台的贷款记录,总数据量超过120w,包含47列变量信息,其中15列为匿名变量。原创 2023-05-17 14:29:02 · 1207 阅读 · 0 评论 -
B.【机器学习实践系列二】数据挖掘-二手车价格交易预测(含EDA探索、特征工程、特征优化、模型融合等)
了解赛题赛题概况数据概况预测指标分析赛题数据读取pandas分类指标评价计算示例回归指标评价计算示例EDA探索载入各种数据科学以及可视化库载入数据总览数据概况判断数据缺失和异常了解预测值的分布特征分为类别特征和数字特征,并对类别特征查看unique分布数字特征分析类别特征分析用pandas_profiling生成数据报告特征工程导入数据删除异常值特征构造特征筛选建模调参,相关原理介绍与推荐线性回归模型决策树模型GBDT模型。原创 2023-04-13 11:50:05 · 993 阅读 · 0 评论 -
B.机器学习实战系列[一]:工业蒸汽量预测(最新版本下篇)重点讲解模型验证、特征优化、模型融合等
在进行归回模型训练涉及主流ML模型:决策树、随机森林,lightgbm等;在模型验证方面:讲解了相关评估指标以及交叉验证等;同时用lgb对特征进行优化;最后进行基于stacking方式模型融合。原创 2023-03-27 09:50:37 · 1279 阅读 · 1 评论 -
B.机器学习实战系列[一]:工业蒸汽量预测(最新版本上篇)含数据探索、特征工程、特征降维、决策树、随机森林,lightgbm等
火力发电的基本原理是:燃料在燃烧时加热水生成蒸汽,蒸汽压力推动汽轮机旋转,然后汽轮机带动发电机旋转,产生电能。在这一系列的能量转化中,影响发电效率的核心是锅炉的燃烧效率,即燃料燃烧加热水产生高温高压蒸汽。锅炉的燃烧效率的影响因素很多,包括锅炉的可调参数,如燃烧给量,一二次风,引风,返料风,给水水量;以及锅炉的工况,比如锅炉床温、床压,炉膛温度、压力,过热器的温度等。经脱敏后的锅炉传感器采集的数据(采集频率是分钟级别),根据锅炉的工况,预测产生的蒸汽量。数据分成训练数据(train.txt)和测试数据(tes原创 2023-03-27 09:44:31 · 1415 阅读 · 0 评论 -
A.机器学习入门算法(九): 基于线性判别模型的LDA手写数字分类识别
在降维过程中可以使用类别的先验知识经验,而像PCA这样的无监督学习则无法使用类别先验知识;LDA在样本分类信息依赖均值而不是方差的时候,比PCA之类的算法较优。LDA不适合对非高斯分布样本进行降维,PCA也有这个问题LDA降维最多降到类别数 k-1 的维数,如果我们降维的维度大于 k-1,则不能使用 LDA。当然目前有一些LDA的进化版算法可以绕过这个问题LDA在样本分类信息依赖方差而不是均值的时候,降维效果不好LDA可能过度拟合数据,原创 2023-03-23 12:32:15 · 753 阅读 · 0 评论 -
A.机器学习入门算法(八):基于BP神经网络的乳腺癌的分类预测
BP神经网络具有以下优点:非线性映射能力:BP神经网络实质上实现了一个从输入到输出的映射功能,数学理论证明三层的神经网络就能够以任意精度逼近任何非线性连续函数。这使得其特别适合于求解内部机制复杂的问题,即BP神经网络具有较强的非线性映射能力。自学习和自适应能力:BP神经网络在训练时,能够通过学习自动提取输入、输出数据间的“合理规则”,并自适应地将学习内容记忆于网络的权值中。即BP神经网络具有高度自学习和自适应的能力。原创 2023-03-23 12:32:38 · 1431 阅读 · 0 评论 -
A.机器学习入门算法[七]:基于英雄联盟数据集的LightGBM的分类预测
简单易用。提供了主流的Python\C++\R语言接口,用户可以轻松使用LightGBM建模并获得相当不错的效果。高效可扩展。在处理大规模数据集时高效迅速、高准确度,对内存等硬件资源要求不高。鲁棒性强。相较于深度学习模型不需要精细调参便能取得近似的效果。LightGBM直接支持缺失值与类别特征,无需对数据额外进行特殊处理相对于深度学习模型无法对时空位置建模,不能很好地捕获图像、语音、文本等高维数据。原创 2023-03-23 12:29:28 · 998 阅读 · 2 评论 -
A.机器学习入门算法(六)基于天气数据集的XGBoost分类预测
对目标函数进行了泰勒展示的二阶展开,可以更加高效拟合误差。提出了一种估计分裂点的算法加速CART树的构建过程,同时可以处理稀疏数据。提出了一种树的并行策略加速迭代。为模型的分布式算法进行了底层优化。XGBoost是基于CART树的集成模型,它的思想是串联多个决策树模型共同进行决策。那么如何串联呢?XGBoost采用迭代预测误差的方法串联。举个通俗的例子,我们现在需要预测一辆车价值3000元。原创 2023-03-23 11:40:52 · 1589 阅读 · 0 评论 -
A.机器学习入门算法(五):基于企鹅数据集的决策树分类预测
具有很好的解释性,模型可以生成可以理解的规则。可以发现特征的重要程度。模型的计算复杂度较低。模型容易过拟合,需要采用减枝技术处理。不能很好利用连续型特征。预测能力有限,无法达到其他强监督模型效果。方差较高,数据分布的轻微改变很容易造成树结构完全不同。参考链接:https://tianchi.aliyun.com/course/278/3422本人最近打算整合ML、DRL、NLP等相关领域的体系化项目课程,方便入门同学快速掌握相关知识。原创 2023-03-23 11:31:44 · 1753 阅读 · 0 评论 -
A.机器学习入门算法(四): 基于支持向量机的分类预测
SVM优缺点优点有严格的数学理论支持,可解释性强,不依靠统计方法,从而简化了通常的分类和回归问题;能找出对任务至关重要的关键样本(即:支持向量);采用核技巧之后,可以处理非线性分类/回归任务;最终决策函数只由少数的支持向量所确定,计算的复杂性取决于支持向量的数目,而不是样本空间的维数,这在某种意义上避免了“维数灾难”。缺点训练时间长。当采用SMO 算法时,由于每次都需要挑选一对参数,因此时间复杂度为ON2O(N^2)ON2,其中NNN为训练样本的数量;原创 2023-03-23 11:12:16 · 834 阅读 · 1 评论 -
A.机器学习入门算法(三):基于鸢尾花和horse-colic数据集的KNN近邻(k-nearest neighbors)分类预测
k近邻方法是一种惰性学习算法,可以用于回归和分类,它的主要思想是投票机制,对于一个测试实例x, 我们在有标签的训练数据集上找到和最相近的k个数据,用他们的label进行投票,分类问题则进行表决投票,回归问题使用加权平均或者直接平均的方法。knn算法中我们最需要关注两个问题:k值的选择和距离的计算。kNN中的k是一个超参数,需要我们进行指定,一般情况下这个k和数据有很大关系,都是交叉验证进行选择,但是建议使用交叉验证的时候,k∈[2,20],使用交叉验证得到一个很好的k值。原创 2023-03-21 12:52:02 · 577 阅读 · 0 评论 -
A.机器学习入门算法(二): 基于朴素贝叶斯(Naive Bayes)的分类预测
朴素贝叶斯算法(Naive Bayes, NB) 是应用最为广泛的分类算法之一。它是基于贝叶斯定义和特征条件独立假设的分类器方法。由于朴素贝叶斯法基于贝叶斯公式计算得到,有着坚实的数学基础,以及稳定的分类效率。NB模型所需估计的参数很少,对缺失数据不太敏感,算法也比较简单。当年的垃圾邮件分类都是基于朴素贝叶斯分类器识别的。什么是条件概率,我们从一个摸球的例子来理解。我们有两个桶:灰色桶和绿色桶,一共有7个小球,4个蓝色3个紫色,分布如下图:从这7个球中,随机选择1个球是紫色的概率p是多少?先选择桶。原创 2023-03-21 11:42:58 · 706 阅读 · 0 评论 -
A.机器学习算法入门教程(一): 基于逻辑回归的分类预测
逻辑回归(Logistic regression,简称LR)虽然其中带有"回归"两个字,但逻辑回归其实是一个模型,并且广泛应用于各个领域之中。虽然现在深度学习相对于这些传统方法更为火热,但实则这些传统方法由于其独特的优势依然广泛应用于各个领域中。而对于逻辑回归而且,最为突出的两点就是其和。原创 2023-03-21 11:19:12 · 1145 阅读 · 0 评论 -
B.数据挖掘机器学习[七]---2021研究生数学建模B题空气质量预报二次建模求解过程:基于Stacking机器学习混合模型的空气质量预测{含码源+pdf文章}
相关文章:特征工程详解及实战项目【参考】数据挖掘---汽车车交易价格预测[一](测评指标;EDA)原创 2022-04-23 17:42:49 · 4545 阅读 · 2 评论 -
B.数据挖掘机器学习[六]---项目实战金融风控之贷款违约预测
相关文章:特征工程详解及实战项目【参考】数据挖掘---汽车车交易价格预测[一](测评指标;EDA)数据挖掘机器学习---汽车交易价格预测详细版本[二]{EDA-数据探索性分析}数据挖掘机器学习---汽车交易价格预测详细版本[三]{特征工程、交叉检验、绘制学习率曲线与验证曲线}数据挖掘机器学习---汽车交易价格预测详细版本[四]{嵌入式特征选择(XGBoots,LightGBM),模型调参(贪心、网格、贝叶斯调参)}数据挖掘机器学习---汽车交易价格预测详细版本[五]{模型融合(Sta原创 2022-04-23 17:44:44 · 4223 阅读 · 3 评论 -
B.数据挖掘机器学习[五]---汽车交易价格预测详细版本{模型融合(Stacking、Blending、Bagging和Boosting)}
题目出自阿里天池赛题链接:零基础入门数据挖掘 - 二手车交易价格预测-天池大赛-阿里云天池相关文章:特征工程详解及实战项目【参考】数据挖掘---汽车车交易价格预测[一](测评指标;EDA)数据挖掘机器学习---汽车交易价格预测详细版本[二]{EDA-数据探索性分析}数据挖掘机器学习---汽车交易价格预测详细版本[三]{特征工程、交叉检验、绘制学习率曲线与验证曲线}前言因为文档是去年弄的,很多资料都有点找不到了,我尽可能写的详细。后面以2021年研究生数学建模B题为例【空气质量预.原创 2022-04-23 16:48:00 · 901 阅读 · 1 评论 -
B.数据挖掘机器学习[四]---汽车交易价格预测详细版本{嵌入式特征选择(XGBoots,LightGBM),模型调参(贪心、网格、贝叶斯调参)}
题目出自阿里天池赛题链接:零基础入门数据挖掘 - 二手车交易价格预测-天池大赛-阿里云天池相关文章:特征工程详解及实战项目【参考】数据挖掘---汽车车交易价格预测[一](测评指标;EDA)数据挖掘机器学习---汽车交易价格预测详细版本[二]{EDA-数据探索性分析}数据挖掘机器学习---汽车交易价格预测详细版本[三]{特征工程、交叉检验、绘制学习率曲线与验证曲线}前言因为文档是去年弄的,很多资料都有点找不到了,我尽可能写的详细。后面以2021年研究生数学建模B题为例【空气质量预.原创 2022-04-23 15:38:49 · 1365 阅读 · 1 评论 -
B.数据挖掘机器学习[三]---汽车交易价格预测详细版本{特征工程、交叉检验、绘制学习率曲线与验证曲线}
题目出自阿里天池赛题链接:零基础入门数据挖掘 - 二手车交易价格预测-天池大赛-阿里云天池相关文章:特征工程详解及实战项目【参考】数据挖掘---汽车车交易价格预测[一](测评指标;EDA)数据挖掘机器学习---汽车交易价格预测详细版本[二]{EDA-数据探索性分析}前言因为文档是去年弄的,很多资料都有点找不到了,我尽可能写的详细。后面以2021年研究生数学建模B题为例【空气质量预报二次建模】再进行一个教学。首先讲几个问题:数据清洗、特征选择作用和方法。1.常见的特征工程.原创 2022-04-23 12:43:20 · 834 阅读 · 0 评论 -
B.数据挖掘机器学习[二]---汽车交易价格预测详细版本{EDA-数据探索性分析}
题目出自阿里天池赛题链接:零基础入门数据挖掘 - 二手车交易价格预测-天池大赛-阿里云天池相关文章:特征工程详解及实战项目【参考】数据挖掘---汽车车交易价格预测[一](测评指标;EDA)前言因为文档是去年弄的,很多资料都有点找不到了,我尽可能写的详细。后面以2021年研究生数学建模B题为例【空气质量预报二次建模】再进行一个教学。1.题目讲解数据来自 Ebay Kleinanzeigen 报废的二手车,数量超过 370,000,包含 20 列变量信息,为了保证 比赛的公平性,将会原创 2022-04-22 20:39:11 · 687 阅读 · 2 评论 -
B.数据挖掘[一]---汽车车交易价格预测(测评指标;EDA)
题目出自阿里天池赛题链接:https://tianchi.aliyun.com/competition/entrance/231784/introduction1.简介:比赛要求参赛选手根据给定的数据集,建立模型,二手汽车的交易价格。来自 Ebay Kleinanzeigen 报废的二手车,数量超过 370,000,包含 20 列变量信息,为了保证 比赛的公平性,将会从中抽取 10 万条作为训练集,5 万条作为测试集 A,5 万条作为测试集 B。同时会对名称、车辆类型、变速箱、model、燃油类型、原创 2021-09-07 10:51:12 · 1769 阅读 · 4 评论