最近突然想学下爬虫爬取一下豆瓣的图书,按类别来爬取并分别存储,然后就用正则写了一份初级爬虫,目前只是分类的页面爬取,后面完善一下,希望能够得到每本书的isbn编号,生成自己的数据库。
# -*- coding:utf-8 -*-
import urllib2
import re
import sys
tags = [u'小说', u'散文', u'历史', u'爱情', u'管理', u'编程', u'生活', u'心理']
haveBooked = set()
class BookSpider:
def __init__(self):
reload(sys)
sys.setdefaultencoding('utf-8')
self.start = 0
self.tagIndex = 0
self.param = '&filter=&type='
self.headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64)'}
self.filePath = 'DoubanTop250.txt'
def GetPage(self):
try:
URL = 'https://book.douban.com/tag/' + tags[self.tagIndex]
request = urllib2.Request(url=URL, headers=self.headers)
response = urllib2.urlopen(request)
page = response.read().decode('utf-8')
self.start += 20
pageNum = self.start / 20
print '正在抓取 ' + tags[self.tagIndex] + '