爬取链家网站的北京租房信息

最新推荐文章于 2024-04-04 20:13:44 发布

cuoguo_xin

最新推荐文章于 2024-04-04 20:13:44 发布

阅读量1.6k

点赞数 2

CC 4.0 BY-SA版权

分类专栏：机器学习爬虫文章标签：爬虫链家机器学习

本文链接：https://blog.youkuaiyun.com/ssssdbucdbod/article/details/80903050

本文讲述了如何爬取链家网站上北京地区的租房信息，包括获取租房页面链接和提取页面数据。通过分步骤的代码实现，详细展示了整个过程，并提供了注意事项，如使用time.sleep()减少访问频率，将已获取链接保存本地以避免重复访问，以及如何处理意外中断后的恢复策略。

本来准备这个暑假好好复习，但学校安排暑期实践，既然学校安排这个，而且我自己也觉得需要提高一下自己的能力，所以静下心来做点事吧。我们要做到项目是分析北京地区的租房的信息分析。

我们需要做的是爬取链家网站上北京地区的租房信息。链家作为国内比较出名的房地产中介公司，发布的房地产租房信息还是不叫权威的。

我们需要做的分为两步：找到各个租房页面的链接，爬取每个租房页面的数据。

第一步找到每个租房页面的链接，北京地区的租房页面的初始链接为https://bj.lianjia.com/zufang/pg1/，下一页的地址就是把后面的pg1改成pg2，以此后推，一共有100个页面。

具体实现代码如下：

    for i in range(1,101):
        firsturl=r"https://bj.lianjia.com/zufang/pg%d/"%i
#        list.append(firsturl)
        title,l=frist(firsturl)

我们需要在这个页面上爬取每个具体房屋页面的URL地址。

具体实现代码如下：

def frist(firsturl):
    time.sleep(3)
    title=[]
    l=[]
    html=requests.get(firsturl)
    #html可能乱码，soup会转码
    soup = BeautifulSoup(html.content)
    for link in soup.find_all('h2'):
        if len(str(link))>84:
    #        href=link.get('href')
            li=link.a['href']
            t= link.a["title"]
            title.append(t)
            l.append