爬虫-----爬取---五级联动数据：【2017年统计用区划代码和城乡划分代码(截止2017年10月31日)】-优快云博客

代码很简单，单线程，requests请求+xpath提取数据，站点都是静态数据，没做反爬措施。

爬取的站点：http://www.stats.gov.cn/tjsj/tjbz/tjyqhdmhcxhfdm/2017/

组装出来的数据是这样：

###########################

北京市,11,市辖区,1101,东城区,110101,东华门街道办事处,11010100,胡家园社区居委会,111,110101009003
北京市,11,市辖区,1101,东城区,110101,东华门街道办事处,11010100,新中街社区居委会,111,110101009004
北京市,11,市辖区,1101,东城区,110101,东华门街道办事处,11010100,清水苑社区居委会,111,110101009005
北京市,11,市辖区,1101,东城区,110101,东华门街道办事处,11010100,新中西里社区居委会,111,110101009006
北京市,11,市辖区,1101,东城区,110101,东华门街道办事处,11010100,十字坡社区居委会,111,110101009008
北京市,11,市辖区,1101,东城区,110101,东华门街道办事处,11010100,东外大街社区居委会,111,110101009010

###########################

import requests
from lxml import etree

class Spider():
def __init__(self):
self.province = ''
self.province_code = ''
self.city = ''
self.city_code = ''
self.district = ''
self.district_code = ''

self.committee=''
self.committee_code=''
self.committee_code2=''

self.city_url = ''
self.district_url = ''
self.url = 'http://www.stats.gov.cn/tjsj/tjbz/tjyqhdmhcxhfdm/2017/'

self.headers = {
'User-Agent'