北京房价预测图说

本文使用Python进行北京房价预测,基于2011-2017年数据进行探索性数据分析(EDA)和回归模型建立,分析房价相关特征,揭示房价趋势。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

前言

曾听人说过,中国经济是房地产市场,美国经济是股票市场。中国房地产市场超过400万亿,房地产总值是美国、欧盟、日本总和,但是股市才50万亿,不到美欧日的十分之一。可见房地产对于中国来说地位尤其明显!对于我们很难在一线城市买房的年轻刚需族来说,这确是一个十分头疼的问题。于此,萌生了分析房价并预测的想法(曾经采用R做过尝试,这次将采用python)。
本次将基于北京房价作为测试数据,后期通过爬虫将抓取包括北上广深等城市的数据以供分析。

数据

感谢Qichen Qiu提供链家网2011-2017北京房价数据,感谢Jonathan Bouchet提供的思路。
本次分析基于python3,代码将稍后整理提供于github。
数据特征包含,kaggle上有具体介绍,在此暂不赘述:

url: the url which fetches the data( character )
id: the id of transaction( character )
Lng: and Lat coordinates, using the BD09 protocol. ( numerical )
Cid: community id( numerical )
tradeTime: the time of transaction( character )
DOM: active days on market.( numerical )
followers: the number of people follow the transaction.( numerical )
totalPrice: the total price( numerical )
price: the average price by square( numerical )
square: the square of house( numerical )
livingRoom: the number of living room( character )
drawingRoom: the number of drawing room( character )
kitchen: the number of kitchen( numerical )
bathroom the number of bathroom( character )
floor: the height of the house. I will turn the Chinese characters to English in the next version.( character )
buildingType: including tower( 1 ) , bungalow( 2 ),combination of plate 
### SQL 关联查询与子查询的概念 #### 视图简介 视图本质上是一个保存在数据库中的查询语句,它代表了一个虚拟的表。当访问视图时,实际上是在执行该视图所定义的基础查询语句[^1]。 #### 子查询概念 子查询是指嵌套在一个更大查询内部的小型查询。这些小型查询可以位于`SELECT`、`FROM`或`WHERE`子句中,并且通常用于提供过滤条件或其他操作所需的值。例如,在给定的成绩表例子中,通过子查询计算特定科目的平均分数并将其作为外部查询的一部分来筛选高于此均值的学生记录[^2]。 ```sql select * from scores as s where score > ( select avg(score) from scores where cid = s.cid ) and Sid BETWEEN 1 and 6; ``` #### 联接查询概述 关联查询涉及多个表格之间基于某些共同列的数据组合方式。最常见的是使用`JOIN`语法实现不同类型的连接: - **内连接 (`INNER JOIN`)** 只返回两个表中共有的匹配行。 - **左外连接 (`LEFT OUTER JOIN`) 和右外连接 (`RIGHT OUTER JOIN`)** 返回左边/右边表的所有记录以及另一边表中存在的对应项;如果另一侧无匹配,则填充NULL值。 - **全外连接 (`FULL OUTER JOIN`)** 结合了左右两侧所有的数据,即使它们不相交也会显示出来,对于缺失的部分则用null代替。 此外还有自然连接(`NATURAL JOIN`)这种特殊的等值连接形式,会自动识别两张表间具有相同名称的字段来进行比较[^3]。 ```sql select * from emp natural join dept; ``` #### 子查询 VS 联接查询对比分析 | 特征 | 子查询 | 联接查询 | |--| | 定义 | 嵌入到另一个SQL命令内的独立查询 | 处理来自一个以上的关系对象(即表)的信息 | | 使用场景 | 当需要先处理一部分逻辑再应用于整体时 | 需要跨多张表检索信息 | | 性能 | 对于复杂情况可能较慢 | 如果索引得当的话性能较好 | | 易读性和维护性 | 更加直观易懂 | 表达更复杂的业务关系 | #### 图解说明 为了更好地理解这两种技术的区别,请考虑下面这个简单的Venn图表示法: ![image](https://example.com/image.png) 在这个假设的例子中,“A”和“B”分别代表不同的实体集(比如员工和部门)。橙色区域展示了两种方法如何交互作用以提取所需的结果集: - 左边部分展示了一种典型的子查询应用场景——我们首先确定某个属性满足一定标准的对象集合(如高薪雇员),然后再与其他相关资源建立联系; - 右边则是关于联接查询的一个实例,这里强调的是直接将两个结构化存储单元按照预设规则结合起来的过程。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值