代码很简单,单线程,requests请求+xpath提取数据,站点都是静态数据,没做反爬措施。
爬取的站点:http://www.stats.gov.cn/tjsj/tjbz/tjyqhdmhcxhfdm/2017/
组装出来的数据是这样:
###########################
北京市,11,市辖区,1101,东城区,110101,东华门街道办事处,11010100,胡家园社区居委会,111,110101009003
北京市,11,市辖区,1101,东城区,110101,东华门街道办事处,11010100,新中街社区居委会,111,110101009004
北京市,11,市辖区,1101,东城区,110101,东华门街道办事处,11010100,清水苑社区居委会,111,110101009005
北京市,11,市辖区,1101,东城区,110101,东华门街道办事处,11010100,新中西里社区居委会,111,110101009006
北京市,11,市辖区,1101,东城区,110101,东华门街道办事处,11010100,十字坡社区居委会,111,110101009008
北京市,11,市辖区,1101,东城区,110101,东华门街道办事处,11010100,东外大街社区居委会,111,110101009010
###########################
import requests
from lxml import etree
class Spider():
def __init__(self):
self.province = ''
self.province_code = ''
self.city = ''
self.city_code = ''
self.district = ''
self.district_code = ''
self.committee=''
self.committee_code=''
self.committee_code2=''
self.city_url = ''
self.district_url = ''
self.url = 'http://www.stats.gov.cn/tjsj/tjbz/tjyqhdmhcxhfdm/2017/'
self.headers = {
'User-Agent'