- 博客(26)
- 收藏
- 关注
原创 机器学习实践项目(三)- Mercari二手商店价格预测 - 特征工程
本文介绍了一个特征工程函数fit_transform_sparse,该函数对商品数据进行多模态特征处理。主要技术点包括:1) 使用TfidfVectorizer处理文本字段(商品名称和描述),通过ngram_range参数提取1-2元词组;2) 采用OneHotEncoder处理分类特征;3) 直接转换数值特征。所有特征最终拼接为稀疏矩阵输出,并保留特征处理器对象供后续使用。函数设计实现了训练集拟合与验证集转换的分离,支持灵活的输入数据配置,并通过日志记录各阶段特征维度变化,适用于商品价格预测等任务。
2025-11-26 00:06:07
599
原创 机器学习实践项目(三)- Mercari二手商店价格预测 - 数据预处理
本文介绍了Mercari数据集预处理的核心代码,主要包括缺失值补全和类别处理两个关键步骤。对于缺失的品牌名称和商品描述,分别填充为"No Brand"和"No description"。针对不规则分类数据,使用正则表达式提取最多3个层级,并重命名为cat1/cat2/cat3。此外,通过保留高频品牌、归并低频品牌为"Other"的方式,减少后续独热编码的维度。这些预处理步骤为后续特征工程奠定了基础。
2025-11-20 23:25:25
166
原创 机器学习实践项目(三)- Mercari二手商店价格预测 - 认识数据
本文分析了一个电商商品价格预测项目的数据集结构。数据集包含8个字段,主要分为文本型(商品标题和描述)、类别型(商品分类和品牌)和数值型(商品状态和运费)特征。其中商品描述和标题是最重要的文本特征,品牌和分类次之。数据存在缺失值问题,特别是品牌字段缺失率达40%。特征工程建议包括对文本进行TF-IDF向量化、分类字段拆分编码、数值字段直接使用,并对价格目标变量进行对数变换。分析表明,该项目重点在于文本特征的NLP处理。完整代码见作者提供的Git仓库。
2025-11-20 22:48:03
670
原创 机器学习实践项目(三)- Mercari二手商店价格预测 - 项目介绍
摘要 本文详细记录了Kaggle Mercari商品价格预测挑战赛的实战经验。该项目要求基于商品标题、描述、品牌等结构化与非结构化数据预测二手商品售价。作者重点介绍了关键处理步骤:对价格取对数处理以优化RMSLE指标;使用TF-IDF+SVD处理文本特征;采用分层Target Encoding处理类别特征;通过稀疏矩阵(CSR)高效组合各类特征;推荐Ridge回归作为基础模型。项目实现了0.43的RMSLE成绩,展现了文本特征工程与结构化数据处理的完美结合,可作为推荐/定价系统的典型实战案例。
2025-11-20 22:33:01
802
原创 机器学习实践项目(二)- 房价预测增强篇 - 额外知识
KFold与StratifiedKFold的核心区别在于是否保持目标分布。KFold随机切分数据,可能导致各折样本分布不均;而StratifiedKFold通过先分层(如pd.qcut())再切分,确保每折目标分布均衡。对于房价预测等目标分布不均的任务,StratifiedKFold能提供更稳定的验证结果。KFold适用于平衡数据,StratifiedKFold更适合分类或偏斜回归任务。
2025-11-11 23:05:56
661
原创 机器学习实践项目(二)- 房价预测增强篇 - 训练、预测、提交
本文完整梳理了一个房价预测机器学习项目的全流程,重点包括: 最终模型构建:整合预处理和最优模型,自动处理目标变量对数变换 全量训练:使用全部训练数据拟合模型以提高稳定性 测试预测:生成房价预测结果并进行合理性修正 提交准备:按Kaggle要求格式输出预测文件 项目收获总结: 掌握了从数据探索、特征工程到模型调优的全流程 实践了多种机器学习模型(Ridge/Lasso/GBDT等)的应用与对比 理解了交叉验证、参数调优和模型评估的关键技术 形成了完整的机器学习项目闭环思维 关键提示:通过比较本地CV与Kagg
2025-11-09 10:34:25
746
原创 机器学习实践项目(二)- 房价预测增强篇 - 模型训练与评估:从多模型对比到小网格微调
本文介绍了房价预测模型的训练过程,主要包括三个核心步骤:首先定义了基于对数空间的RMSE评估指标,用于缓解数据右偏分布;其次构建了预处理和模型训练的Pipeline,确保数据无泄漏并自动进行log变换;最后通过交叉验证比较了Ridge、Lasso、ElasticNet和HistGBR四种模型的性能。文中特别强调了模型参数的稳定性设置,如增大迭代次数、放宽容错阈值等,并解释了当HistGBR表现最优时进行小网格微调的方法。整个流程注重模型公平比较和稳健训练,为选择最优模型提供了系统化方案。
2025-11-08 23:34:00
838
原创 机器学习实践项目(二)- 房价预测增强篇 - 特征工程四
本文介绍了目标编码(Target Encoding)的实现方法及其优势。目标编码通过用目标值的平均数代替类别值,解决了独热编码(One-Hot)在高基数特征上的不足。为防止数据泄漏,采用K折交叉验证(OOF)的方式分层计算编码:将数据分成K折,每次用K-1折数据计算均值后应用于剩下的1折。此外还引入平滑处理,通过混合全局均值来稳定稀有类别的编码。该方法既能保留类别特征的信息,又能避免模型"偷看"答案,提高了模型的泛化能力。文中还通过示例详细解释了KFold分层的原理,说明这种轮换验证的方
2025-11-07 21:33:47
986
原创 机器学习实践项目(二)- 房价预测增强篇 - 特征工程三
本文介绍了数据预处理中的两个关键步骤:有序类别特征映射和异常值处理。对于房屋质量等有序类别特征,采用分值映射(5-1)将文本转换为数值;针对车库建造年份异常值(如早于1800年),使用合理逻辑进行修正。重点讨论了分类特征处理方案,指出直接数值编码的误导性,并详细讲解了独热编码(One-Hot Encoding)的原理和实现方法,通过为每个类别创建0/1特征列来解决模型对类别特征的理解问题。文章最后指出独热编码在类别过多时的局限性,为后续介绍更高级的目标编码方法做铺垫。这些特征工程处理对提升机器学习模型性能至
2025-11-07 00:03:57
431
原创 机器学习实践项目(二)- 房价预测增强篇 - 特征工程二
本文探讨了人工特征工程在房价预测模型中的重要性。分析指出,由于模型复杂度限制、特征组合爆炸等问题,传统机器学习模型难以自动发现有效的特征组合。通过房地产领域的专业特征设计(如浴室密度等),可以显著提高模型的学习效率和预测准确性。文章总结了人工特征工程的四大价值:封装领域知识、降低模型负担、提升可解释性和加速收敛。虽然深度学习能自动学习部分特征,但在结构化数据分析中,精心设计的人工特征工程仍是提升模型性能的关键手段。
2025-11-06 21:34:48
160
原创 机器学习实践项目(二)- 房价预测增强篇 - 特征工程一
摘要:本文详细介绍了房价预测项目中数据预处理和特征工程的关键步骤。首先采用按街区分组的中位数填补缺失值,确保数据补全合理性。随后重点讲解了如何构建6类强特征:(1)总面积整合地上和地下空间;(2)半卫折算的总浴室数;(3)浴室密度指标;(4)合并多种门廊面积;(5)房龄和新房标识;(6)车库/壁炉/泳池等布尔特征。这些特征通过业务理解将原始数据转化为更有预测力的指标,既降低了数据稀疏性,又增强了模型对房价影响因素的捕捉能力。文章还探讨了特征工程对提升模型性能的重要性。
2025-11-05 23:33:35
635
原创 机器学习实践项目(二)- 房价预测增强篇 - 一种新的解法
文章摘要: 作者分享了Kaggle房价预测竞赛的优化方案。针对初始解法仅获得0.55897分的问题,通过系统化的特征工程进行了改进:包括按社区分组填补缺失值、构造总面积/浴室密度等强特征、有序质量列的数值映射、修正车库年份异常值,以及使用OOF目标编码处理分类变量。这些方法显著提升了模型性能,体现了数据预处理和特征工程在机器学习竞赛中的重要性。文中提供了完整的Python实现代码和详细的技术说明。
2025-11-05 00:05:05
120
原创 机器学习实践项目(二)- 房价预测 - 训练模型
摘要 本文是Kaggle房价预测实战指南的第三篇,重点介绍建模与预测阶段。通过岭回归(Ridge)和随机森林(RandomForest)两种模型的构建与参数调优,展示如何利用交叉验证选择最优参数。文章详细说明了模型融合(Ensemble)方法,将线性模型和非线性模型进行简单平均,以提高预测稳定性。最后给出生成提交文件的标准流程和完整的项目总结,包括数据理解、清洗、建模到提交的全过程,为数据科学实战提供系统指导。
2025-11-02 17:25:00
361
原创 机器学习实践项目(二)- 房价预测 - 处理数据
本文介绍了Kaggle房价预测项目中数据清洗与特征处理的关键步骤。首先将训练集和测试集合并处理以获得一致性,并对目标变量取对数转换。接着使用独热编码处理类别特征,用均值填补数值型缺失值,并对数值特征进行标准化处理。最后重新拆分为训练集和测试集,生成了干净统一的特征矩阵。这套标准化处理流程包括数据合并、类别编码、缺失值填补和特征标准化,为后续建模奠定了数据基础,使机器学习模型能够有效训练和预测。
2025-11-02 17:24:16
280
原创 机器学习实践项目(二)- 房价预测 - 认识数据
这篇文章系统解析了Kaggle房价预测项目的数据字段。主要内容包括:1) 目标变量SalePrice呈右偏分布,建议采用对数变换;2) 对80多个特征字段进行类型分类,指出数值型和类别型的区别;3) 强调识别"伪数值列"的重要性,并以MSSubClass为例说明如何正确转换类别型数据;4) 预告下篇将讲解数据清洗与特征工程。为机器学习建模前的数据理解提供了基础指导。
2025-11-02 17:23:13
286
原创 机器学习实践项目(一)- Rossman商店销售预测 - 提交结果
摘要:本文介绍了模型训练和微调完成后,对测试数据进行预测并提交Kaggle的过程。使用XGBoost模型预测后,生成了三种结果:不微调、统一微调和门店单独微调。实验证明,门店单独微调效果最优,统一微调次之,不微调效果最差。这验证了微调策略的有效性,为机器学习实践提供了一个简单但有效的案例。
2025-10-13 21:43:59
204
原创 机器学习实践项目(一)- Rossman商店销售预测 - 结果微调
上一篇文章我们提到,按照训练的结果,取平均Ratio的话,是整体略偏高的,预测值大概是真实值的1.001倍,因此需要对预测的结果进行微调。微调的思路有两种,一种是全部门店乘以同一个权重进行调整,另一种是每个门店计算一个单独的权重进行微调,下面我们把两种思路都实现一遍。
2025-10-13 21:05:26
706
原创 机器学习实践项目(一)- Rossman商店销售预测 - 模型训练
本文介绍了一个基于XGBoost算法的商店销售价格预测模型。该回归问题采用均方根百分比误差(RMSPE)作为评估指标,详细说明了模型参数配置、训练过程和验证方法。通过随机森林回归算法训练后,模型在验证集上实现了1.001的平均预测偏差率,并展示了三个随机商店的预测值与实际值对比图表。结果表明预测值整体略高于实际值,后续可对预测结果进行微调优化。完整代码包含了模型训练、评估和可视化全过程,为零售业销售预测提供了实用参考方案。
2025-10-12 20:28:11
228
原创 机器学习实践项目(一)- Rossman商店销售预测 - 特征工程
本文介绍了机器学习特征工程的处理过程。首先识别出数据集中的非数值型字段(如日期、类别等),通过日期分解、类别数值化等方法进行转换。然后分析特征相关性,分离训练集和验证集,并对目标变量进行对数转换以改善正态分布。特征工程处理包括:降低维度、提升训练速度、减少过拟合、增强模型可解释性。最终完成数据预处理,为后续模型训练做好准备。
2025-10-12 17:47:05
607
原创 机器学习实践项目(一)- Rossman商店销售预测 - 预处理数据
本文介绍了数据预处理的两个关键步骤:缺失值填充和数据合并。首先对测试集中11条营业状态为空的记录(均来自622门店)填充为1,基于历史数据分析该门店应处于营业状态。接着将门店主数据中所有缺失字段统一填充为0。完成缺失值处理后,通过左连接将门店数据集分别合并到训练集和测试集,使字段数量得到扩展。预处理工作确保了所有参与算法训练的字段均无空值,为后续特征工程奠定了基础。
2025-10-11 21:21:16
344
原创 机器学习实践项目(一)- Rossman商店销售预测 - 了解数据
程序员都知道,程序其实就是管输入、输出,中间的代码需要实现,只要输入、输出对就算对了。因此,我们要处理数据,第一步就是了解你的数据。声明一下,本项目我也是跟着B站一个博主一步步做的,所以这里放一下他的,有兴趣的同学也可以去看看,当然我也在做的过程中改良了一些代码。
2025-10-08 14:35:08
770
原创 机器学习实践项目(一)- Rossman商店销售预测 - 认识这个项目
目前,罗仕曼的门店经理需要提前预测最多六周的每日销售额。在罗仕曼的首届Kaggle竞赛中,参赛者需为德国境内的1,115家门店预测未来6周的每日销售额。可靠的销售预测能让门店经理制定高效的员工排班计划,从而提升工作效率和团队积极性。),特地翻译成了中文。可见Kaggle上的竞赛还有奖金,如果表现出色可能还有工作机会,所以搞好机器学习还是为我们CS人能提供多一份的机会。额外设立一项5,000美元奖金,颁发给其方法论被Rossmann采用的团队。按照项目的要求,通过算法计算出来的销售金额是否正确,可以通过。
2025-10-07 23:50:26
609
原创 认识机器学习
朋友们,机器学习已经从一个前沿研究领域,演变成了我们手中一个强大的、通用的计算工具。它本质上是一种从数据中推导出程序(模型)的方法论,用以解决感知、预测和决策等复杂问题。作为技术人,理解并掌握它,不是为了追赶潮流,而是为了在解决下一个棘手的技术难题时,我们能多一张威力强大的底牌。它正在重塑软件开发的形态,而我们都身处这场变革之中。希望这篇讲解能帮助你更深刻地理解机器学习的作用。下次当我们再谈起AI时,你脑海中浮现的将不再是一个黑盒魔法,而是一个由数据、算法和算力精密驱动的、我们能够理解并驾驭的工程系统。
2025-10-07 21:34:32
466
原创 回归优快云随笔
自从优快云账号莫名其妙被封号,找回也找不回来后,就很少来优快云了。前段时间发现居然能直接登录了,对优快云还是有感情的,正巧最近在学习机器学习方面的东西,后面我会把我的一些学习过程整理在这里,有缘人可以来看看。
2025-10-07 20:49:58
78
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅