厦门租房信息分析展示（pycharm+python爬虫+pyspark+pyecharts）（踩坑记录）

最新推荐文章于 2024-04-06 22:56:58 发布

原创

最新推荐文章于 2024-04-06 22:56:58 发布 · 1.6k 阅读

19 ·

CC 4.0 BY-SA版权

文章标签：

#hadoop #spark #python

该项目使用Pycharm、Python爬虫、Pyspark和Pyecharts对厦门租房信息进行分析展示。在实施过程中遇到Spark读取CSV文件的连接错误，通过修改读取方式并指定format解决了问题。另外，Pyecharts的版本变化导致了用法更新，需参照最新文档进行调整。

厦门租房信息分析展示（pycharm+python爬虫+pyspark+pyecharts）（踩坑记录）

项目地址http://dblab.xmu.edu.cn/blog/2307/

踩坑:

Spark分析文件rent_analyse.py

改变Spark读取csv文件的写法

    sparkContext = SparkContext("local","rent_analyse")
    sqlContext = SQLContext(sparkContext)
    df = sqlContext.read.format('com.databricks.spark.csv').options(header='true', inferschema='true').load(filename)

原写法会报连接错误，同时在读取csv文件时需要添加format参数，否则又会报错
在读取csv文件时文件路径需要加上file:///，如：
```
"file:///develop/sparkSpace/rent.csv"
```
如果文件参数默认为文件名，则Spark会到Hadoop的文件系统里读取数据，路径为：
```
"hdfs://localhost:9000/user/root/rent.csv"
```
<