【Scrapy爬取实例】- 爬取链家网指定城市二手房源信息

RunnerJxc

于 2020-06-05 18:16:14 发布

阅读量1.1k

点赞数

CC 4.0 BY-SA版权

分类专栏： Python数据爬取文章标签： python mongodb 链家二手房 scrapy

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/Dick633/article/details/106571809

文章目录

一、网站分析

链接分析
- 城市链接
  北京：https://bj.lianjia.com/ershoufang/
  成都：https://cd.lianjia.com/ershoufang/
  四川：https://sc.lianjia.com/ershoufang/
  …
  可见，不同城市，将标红处改为城市的首字母小写即可。
- 页面链接
  第一页:https://cd.lianjia.com/ershoufang/pg1
  第二页:https://cd.lianjia.com/ershoufang/pg2
  第三页:https://cd.lianjia.com/ershoufang/pg3
  …
  可见，将标红处依次递增即可。
数据加载方式
链家的比较简单，网页源码里都有
目标信息

本次抓取目标为上图红框中的关键文字信息。

二、抓取思路

因为信息都在网页源码中，页面链接的生成规律也很简单，所以解决如何生成指定城市的链接即可。
由上述分析可知，城市链接只要将城市名称，如 重庆转为首字母小写 cq，再填入对应位置即可。
其他：

设置请求头、免费代理ip实时切换，处理请求异常
抓取到的信息存入mongodb

三、关键代码

item

import scrapy
class ErshoufangItem(scrapy.Item):
    # define the fields for your item here like: 
    title = scrapy.Field() #房屋title
    address = scrapy.Field() #地址
    city = scrapy.Field()#所在城市
    info = scrapy.Field()#具体信息
    totalPrice = scrapy.Field()#总价
    unitPrice = scrapy.Field()#单价

spider

import scrapy
from xpinyin import Pinyin #汉字转拼音的库

from ershoufang.items import ErshoufangItem

pinyin = Pinyin()
CRAWL_PAGE = 10 #爬取页数

class LianjiaSpider(scrapy.Spider):
    name = 'lianjia'
    def __init__(sel

最低0.47元/天解锁文章

200万优质内容无限畅学

博客等级

码龄10年

72
原创

155
点赞

726
收藏

113
粉丝

关注

私信

分类专栏

展开全部收起

上一篇：: 【python实用特性】- enumerate函数

下一篇：: 【python实用特性】- 装饰器

最新评论

【openstack】无法访问身份管理下的项目、用户、组的解决办法
我叫凉音: 可能是版本问题，不同版本不同的文件，就像我跟lz的文件就不一样，，
【linux系统故障】-网卡消失
大佬我想学这个: 网卡重启后可以用了，但是系统重启后又down掉了，这是什么问题
【openstack】无法访问身份管理下的项目、用户、组的解决办法
刘Kx: 能好吗，为什么我也是这个问题，和你一样找不到第三个，但是我好像重启失败了
Centos更改yum、epel为国内源
yuki_2000: 谢谢你解决了我的问题
【openstack】无法访问身份管理下的项目、用户、组的解决办法
我叫凉音: 这里边需要说一嘴，2.1操作里进行WEBROOT=‘/dashboard’的操作中的前两个文件没什么好说的，直接按路径找到修改就行了。主要的是第三个文件，我找到了文件的父路径也就是在js下，我没找到相同名称的js文件所以我就挨个打开查看，在文件中搜索的过程中发现有只有一个文件里的WEBROOT是大致符合要匹配的格式的，所以大胆修改了一下，后面按照博主的方式修改完，重启服务问题就解决了。不过第一次输网址忘记加/dashboard了，加上就好了

大家在看

基于紫色浪漫风格的响应式心理测评系统设计与实现

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。