数据采集(旅游蚂蜂窝)

http://www.mafengwo.cn/

问题

大家都知道,数据采集需要先去了解数据的特征.数据采集一般都是先有列表,然后再有一个或者多个detail.
列表中有一个id.detail中有子id.
比如列表url有.
http://www.mafengwo.cn/travel-scenic-spot/mafengwo/12711.html
这个是蚂蜂窝数据中的云南省的数据列表.
如果再寻找下面的数据:
云南概况
http://www.mafengwo.cn/baike/12711_3810.html
你会发现云南概况应该是云南id+概况id.这样的组合.
那么如果下一个省是四川
http://www.mafengwo.cn/travel-scenic-spot/mafengwo/12703.html
如果按照规则来.那么四川概况应该是:
http://www.mafengwo.cn/travel-scenic-spot/mafengwo/12703_3810.html
可惜的是当我们访问的时候发现404.

解决办法

1.list url
2.detail url上再搜索需要抓取的url.按照xpath或者css的方式筛选都可以
3.再根据得到的url再次请求.
4.当然解决万年的访问请求次数太多的问题,找代理或者降低请求频率

需要旅游的数据,联系QQ:3684170
目前手里已有蚂蜂窝网的全部数据
这里写图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

hassen2010

你的鼓励我能输出跟多的好文章

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值