advanced regression to predict housing prices

最新推荐文章于 2024-01-22 21:17:07 发布

lightmare625

最新推荐文章于 2024-01-22 21:17:07 发布

阅读量171

点赞数

CC 4.0 BY-SA版权

本文链接：https://blog.youkuaiyun.com/weixin_41042404/article/details/82792020

机器学习专栏收录该内容

11 篇文章

订阅专栏

本文深入探讨了数据科学中的核心概念，包括pandas处理虚拟变量、lasso回归、探索性数据分析、Kaggle房价预测、xgboost算法原理及应用、偏度(skewness)的定义，以及数据缺失值的处理方法，旨在为读者提供全面的数据科学知识框架。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

https://docs.google.com/presentation/d/e/2PACX-1vQGlXP6QZH0ATzXYwnrXinJcCn00fxCOoEczPAXU-n3hAPLUfMfie7CwW4Vk4owYPiNh6g4uc9dx757/pub?start=false&loop=false&delayms=3000&slide=id.g3149e75136_0_130

Pandas 处理 dummy variable

p-value：拒绝原假设H0时犯错误的概率，即其值越小，越说明拒绝原假设H0 接受备择假设H1是正确的。
直观来说，就是犯错概率越低越好。

也可以解释为，假定“不靠谱”原假设为真时，得到与样本相同或者比样本更极端结果的概率。
例如，原假设“人们拇指平均长度是10cm”，根据样本数据得到p-value是0.03，这意味着如果人们拇指平均长度是10cm，得到样本或更极端结果的概率是0.03，小于0.05，这时我们就可以认为原假设不可能成立，即拒绝原假设。

这里需要注意的是，P值不是给定样本结果时原假设为真的概率，而是给定原假设为真时样本结果出现的概率。

p-value与alpha值：
p值精确地算出一个取样的稀罕程度，alpha值是事先给出的对样本稀有程度的判定界限。

Lasso regression(稀疏学习,R)

探索性数据分析

Kaggle房价预测进阶版/bagging/boosting/AdaBoost/XGBoost

kaggle 房价预测经典文章

===稀疏数据

The Wide and Deep Learning Model（译文+Tensorlfow源码解析）

ppt=======

missingno

没有高质量的数据，就没有高质量的数据挖掘结果，当我们做监督学习算法，难免会碰到混乱的数据集，缺失的值，当缺失比例很小时，可直接对缺失记录进行舍弃或进行手工处理，missingno提供了一个小型的灵活的、易于使用的数据可视化和实用工具集，用图像的方式让你能够快速评估数据缺失的情况，而不是在数据表里面步履维艰。你可以根据数据的完整度对数据进行排序或过滤，或者根据热度图或树状图来考虑对数据进行修正。
missingno 是基于matplotlib建造的一个模块，所以它出图速度很快，并且能够灵活的处理pandas数据。

xgboost

介绍

花了几天时间粗略地看完了xgboost原论文和作者的slide讲解，仅仅是入门入门入门笔记。给我的感觉就是xgboost算法比较复杂，针对传统GBDT算法做了很多细节改进，包括损失函数、正则化、切分点查找算法优化、稀疏感知算法、并行化算法设计等等。本文主要介绍xgboost基本原理以及与传统gbdt算法对比总结，后续会基于python版本做了一些实战调参试验。想详细学习xgboost算法原理建议通读作者原始论文与slide讲解。

skew定义

偏度（skewness），是统计数据分布偏斜方向和程度的度量，是统计数据分布非对称程度的数字特征。偏度(Skewness)亦称偏态、偏态系数。表征概率分布密度曲线相对于平均值不对称程度的特征数。直观看来就是密度函数曲线尾部的相对长度。定义上偏度是样本的三阶标准化矩：