由于想从事大数据方面的工作,看到好多公司要求会python,所以开始学习python。简单地看了python的语法,和一些爬虫的案例,于是便自己尝试写一些爬取链家网信息的爬虫。
这个爬虫比较的简单,只爬取了链家网 目前的所有新房信息。用到requests进行页面请求,对于爬取后的页面用BeautifulSoup进行解析,pymysql进行数据库操作。整个项目的大致思路是这样的:
- 先根据任意城市的主页,爬取所有城市的url,信息并入库
- 然后根据第一步爬取的信息,获取每个城市的页面数
- 循环遍历每个城市的新房信息,并批量入库
最后,附上资源地址http://download.youkuaiyun.com/download/wuyouagd/10153236
本文分享了一个使用Python爬取链家网新房信息的简单项目经验。该项目利用requests发起请求,通过BeautifulSoup解析网页,并使用pymysql进行数据库操作。作者介绍了项目的整体思路和技术细节。
3万+

被折叠的 条评论
为什么被折叠?



