爬虫-----爬取---五级联动数据:【2017年统计用区划代码和城乡划分代码(截止2017年10月31日)】

代码很简单,单线程,requests请求+xpath提取数据,站点都是静态数据,没做反爬措施。

爬取的站点:http://www.stats.gov.cn/tjsj/tjbz/tjyqhdmhcxhfdm/2017/

组装出来的数据是这样:

###########################

北京市,11,市辖区,1101,东城区,110101,东华门街道办事处,11010100,胡家园社区居委会,111,110101009003
北京市,11,市辖区,1101,东城区,110101,东华门街道办事处,11010100,新中街社区居委会,111,110101009004
北京市,11,市辖区,1101,东城区,110101,东华门街道办事处,11010100,清水苑社区居委会,111,110101009005
北京市,11,市辖区,1101,东城区,110101,东华门街道办事处,11010100,新中西里社区居委会,111,110101009006
北京市,11,市辖区,1101,东城区,110101,东华门街道办事处,11010100,十字坡社区居委会,111,110101009008
北京市,11,市辖区,1101,东城区,110101,东华门街道办事处,11010100,东外大街社区居委会,111,110101009010

###########################

 

import requests
from lxml import etree

class Spider():
    def __init__(self):
        self.province = ''
        self.province_code = ''
        self.city = ''
        self.city_code = ''
        self.district = ''
        self.district_code = ''

        self.committee=''
        self.committee_code=''
        self.committee_code2=''

        self.city_url = ''
        self.district_url = ''
        self.url = 'http://www.stats.gov.cn/tjsj/tjbz/tjyqhdmhcxhfdm/2017/'

        self.headers = {
            'User-Agent'

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值