advanced regression to predict housing prices

本文深入探讨了数据科学中的核心概念,包括pandas处理虚拟变量、lasso回归、探索性数据分析、Kaggle房价预测、xgboost算法原理及应用、偏度(skewness)的定义,以及数据缺失值的处理方法,旨在为读者提供全面的数据科学知识框架。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

https://docs.google.com/presentation/d/e/2PACX-1vQGlXP6QZH0ATzXYwnrXinJcCn00fxCOoEczPAXU-n3hAPLUfMfie7CwW4Vk4owYPiNh6g4uc9dx757/pub?start=false&loop=false&delayms=3000&slide=id.g3149e75136_0_130

 

Pandas 处理 dummy variable

 

p-value:拒绝原假设H0时犯错误的概率,即其值越小,越说明拒绝原假设H0 接受备择假设H1是正确的。 
直观来说,就是犯错概率越低越好。

也可以解释为,假定“不靠谱”原假设为真时,得到与样本相同或者比样本更极端结果的概率。 
例如,原假设“人们拇指平均长度是10cm”,根据样本数据得到p-value是0.03,这意味着如果人们拇指平均长度是10cm,得到样本或更极端结果的概率是0.03,小于0.05,这时我们就可以认为原假设不可能成立,即拒绝原假设。

这里需要注意的是,P值不是给定样本结果时原假设为真的概率,而是给定原假设为真时样本结果出现的概率。

p-value与alpha值: 
p值精确地算出一个取样的稀罕程度,alpha值是事先给出的对样本稀有程度的判定界限。

 

Lasso regression(稀疏学习,R)

 

探索性数据分析

 

Kaggle房价预测进阶版/bagging/boosting/AdaBoost/XGBoost

 

kaggle 房价预测经典文章

 

===稀疏数据

The Wide and Deep Learning Model(译文+Tensorlfow源码解析)

 

 

ppt=======

missingno

没有高质量的数据,就没有高质量的数据挖掘结果,当我们做监督学习算法,难免会碰到混乱的数据集,缺失的值,当缺失比例很小时,可直接对缺失记录进行舍弃或进行手工处理,missingno提供了一个小型的灵活的、易于使用的数据可视化和实用工具集,用图像的方式让你能够快速评估数据缺失的情况,而不是在数据表里面步履维艰。你可以根据数据的完整度对数据进行排序或过滤,或者根据热度图或树状图来考虑对数据进行修正。
missingno 是基于matplotlib建造的一个模块,所以它出图速度很快,并且能够灵活的处理pandas数据。

 

xgboost

介绍

花了几天时间粗略地看完了xgboost原论文和作者的slide讲解,仅仅是入门入门入门笔记。给我的感觉就是xgboost算法比较复杂,针对传统GBDT算法做了很多细节改进,包括损失函数、正则化、切分点查找算法优化、稀疏感知算法、并行化算法设计等等。本文主要介绍xgboost基本原理以及与传统gbdt算法对比总结,后续会基于python版本做了一些实战调参试验。想详细学习xgboost算法原理建议通读作者原始论文与slide讲解。  

 

skew定义

偏度(skewness),是统计数据分布偏斜方向和程度的度量,是统计数据分布非对称程度的数字特征。偏度(Skewness)亦称偏态、偏态系数。 表征概率分布密度曲线相对于平均值不对称程度的特征数。直观看来就是密度函数曲线尾部的相对长度。 定义上偏度是样本的三阶标准化矩:

  

 

 

机器学习中数据缺失值处理方法

### 高级回归技术用于房价预测 在机器学习领域,解决房价预测问题通常涉及多种高级回归技术。这些方法不仅限于简单的线性回归模型,还包括更复杂的算法和技术。 #### 正则化回归模型 正则化是一种防止过拟合的技术,在房价预测中尤为重要。Lasso回归通过引入L1范数惩罚项来实现特征选择和稀疏解。这有助于减少不重要特征的影响并提高模型泛化能力[^2]。 ```python from sklearn.linear_model import Lasso import numpy as np import pandas as pd model = Lasso(alpha=0.0005, random_state=0) model.fit(train_feature, price) predict = model.predict(test_feature) predicts = np.exp(predict) output = pd.DataFrame({'Id': test_df.Id, 'SalePrice': predicts}) output.to_csv('H:\\DataAnalysis\\predictprice\\regression.csv', index=False) ``` #### 组合模型与集成学习 为了进一步提升预测性能,可以考虑使用组合模型或集成学习方法。例如随机森林、梯度提升树(GBDT)、XGBoost等都是常见的选择。这类模型能够捕捉数据中的复杂模式,并提供更高的准确性。 #### 特征工程的重要性 除了选用合适的模型外,有效的特征工程技术也是成功的关键因素之一。通过对原始输入变量进行转换处理,如创建交互作用项、多项式扩展等方式增强模型表达力;同时去除冗余信息降低维度,从而改善最终效果。 #### 超参数调优策略 对于大多数机器学习任务而言,超参数的选择会显著影响到训练过程以及测试集上的表现。因此建议采用网格搜索(Grid Search) 或贝叶斯优化(Bayesian Optimization) 来寻找最佳配置方案。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值