
数据挖掘
文章平均质量分 87
我不是小upper
一个不怎么正经的算法工程师
展开
-
数据预处理之特征选择 (Feature Selection)
特征选择是数据处理与建模的关键环节,旨在筛选高价值特征、剔除冗余,提升模型效率与性能。本文基于 UCI 乳腺癌数据集,运用 Filter 法(互信息)、Wrapper 法(RFE)、Embedded 法(Lasso)开展实践。通过随机森林评估发现,互信息法选取 10 个特征时,模型准确率达 0.9591、AUC 为 0.9947;RFE 法选 10 特征亦维持高效。这些方法在减少特征维度的同时,有效保留模型判别能力,避免 “维度灾难”,既降低计算成本,又提升运算效率,为数据处理提供了优化策略,确保模型在简洁原创 2025-04-26 23:25:25 · 831 阅读 · 0 评论 -
【机器学习案例】员工的离职预测:从数据探索到模型构建完整流程解析
使用的是从kaggle上找的公开的HR数据集,构建员工的离职预测模型。原创 2025-04-17 13:53:55 · 1023 阅读 · 0 评论 -
很透彻!50个Pytorch核心操作!!!
大家好,我不是小upper。今天,咱们一起来深入探讨 Pytorch。Pytorch 官网为https://pytorch.org ,这里能找到最新且最完整的语法解释,是学习和使用 Pytorch 的重要资源宝库。现阶段来说,无论是在职场拼搏的专业人士,还是在校潜心钻研的学生,依据 NeurIPS、ICML 等顶级学术会议论文的统计数据,超过 70% 的深度学习研究代码是基于 PyTorch 实现的,这一比例远超 TensorFlow 等其他框架。原创 2025-04-14 23:27:57 · 1342 阅读 · 0 评论 -
梯度提升回归器详解:带有代码示例的可视化指南
在机器学习领域,我们都盼着预测结果能精准无误。一开始,简单的决策树帮我们开了个好头,效果还算差强人意。紧接着,随机森林和AdaBoost横空出世,预测表现更上一层楼。然而,的出现,彻底改写了游戏规则,让预测精度实现了质的飞跃。有人说:“之所以效果拔群,背后的原理其实挺简单:它会接连构建一个又一个模型,每一个新模型都一门心思去修正前面所有模型犯下的错误。这种循序渐进纠错的方式,就是它的独特魅力所在。原创 2025-04-11 22:52:35 · 771 阅读 · 0 评论 -
深入理解极端随机森林:原理、代码与应用
在开始介绍随机森林前,首先我要介绍一下集成学习算法,它可不算是单打独斗的机器学习算法,它的本事在于把好多机器学习器整合到一块儿,合力完成学习任务。打个比方,就像组建一支足球队,每个球员都有自己的特长,整合在一起,球队实力就强了。集成学习也一样,集合了各种算法的长处,在机器学习里,准确率常常能名列前茅。不过呢,它也有个小缺点,训练模型的时候,过程有点复杂,效率不是特别高。眼下,常见的集成学习算法主要分两类:一类是基于Bagging的算法,另一类是基于Boosting的算法。原创 2025-04-11 14:23:31 · 818 阅读 · 0 评论 -
一文搞懂 XGBoost,从原理到实践去深入理解 XGBoost
XGBoost 作为一种强大的机器学习算法,凭借其高效、灵活、准确的特性,在数据挖掘和机器学习领域得到了广泛应用。通过本文对 XGBoost 原理的讲解、案例的演示以及参数调优的介绍,相信大家对 XGBoost 有了更深入的理解。在实际应用中,要根据具体问题和数据特点,合理调整 XGBoost 的参数,充分发挥其优势。同时,不断学习和尝试新的技巧,进一步提升模型性能。机器学习是一个充满挑战与机遇的领域,XGBoost 只是其中的一把利器,希望大家能够熟练掌握,在数据科学的道路上不断探索前行。原创 2025-04-08 14:30:12 · 1965 阅读 · 0 评论 -
机器学习小白也能懂!用简单代码开启智能之旅[建议收藏❤️]
在当今人工智能技术蓬勃发展的背景下,机器学习作为其核心分支,已成为推动各领域创新的重要驱动力。本文以经典的鸢尾花分类问题为例,系统地展示了机器学习从数据处理到模型构建的完整流程。通过利用Python生态中的高效工具库(如scikit-learn、pandas和matplotlib),我们首先加载并预处理鸢尾花数据集,将原始数据转化为结构化格式以便分析。接着,采用监督学习中的K近邻算法构建分类模型,通过科学划分训练集与测试集(测试集占比20%),确保模型在未见过的数据上具备可靠的泛化能力。在模型训练阶段,通原创 2025-03-17 14:44:15 · 549 阅读 · 0 评论 -
【0 基础也能懂!】系列超市小票 + 奶茶订单:自创5 个生活场景数据集(含脏数据)
🥤📊 不会写代码也能玩数据分析?这 3 个「生活级」数据集让你秒变数据高手!你是否见过:▷ 奶茶店老板靠 3 行代码,找出每周三必爆卖的「隐藏爆款」?▷ 宝妈用手机算复购,发现某品牌面膜「买一送一」其实更贵?现在,这些真实场景的数据集,0 基础也能直接玩!🔥 3 个「会说话」的数据集,藏着生活的小秘密1. 奶茶店订单:雨天卖爆的不是珍珠,是它!2. 超市小票:VIP 用户都在偷偷买什么?3. 电商复购:口红用户的「变心周期」是多久?原创 2025-03-13 15:57:49 · 204 阅读 · 0 评论 -
【0 基础也能懂!】保姆级 Pandas 入门:用 Python 玩转数据,5 分钟学会超市理货员都会的数据分析
小明现在每周三下午都会提醒店长备货珍珠奶茶,因为 Pandas 告诉他:这个时段的销量占全天的 35%!:关注fly科技资讯公众号回复 "pandas 实战",领取。本公众号所有资料均无偿提供,只为帮助各位更好的入门数据分析,绝无套路!现在,打开你的电脑,跟着课程一步步操作,下一个让数据 "听话" 的人就是你!:安装后打开 Jupyter Notebook(Anaconda 菜单里有),输入。⚠️ 不适合:完全没碰过 Python 的纯小白(建议先学 3 天基础语法),没有报错就证明成功了噢!原创 2025-03-13 14:45:41 · 1242 阅读 · 0 评论