python3爬取豆瓣书籍top250

最新推荐文章于 2021-05-13 21:14:49 发布

原创最新推荐文章于 2021-05-13 21:14:49 发布 · 576 阅读

0 ·

CC 4.0 BY-SA版权

本博客介绍了一个Python程序，该程序用于从豆瓣网站爬取Top250书籍的相关信息，包括书名、作者、评分等，并展示了如何解析网页内容及抓取具体数据。

豆瓣

import re
import ssl
import urllib.request

ssl._create_default_https_context=ssl._create_unverified_context

class Douban:
	def __init__(self):
		self.queque=[]
		self.user_agent='Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_1) AppleWebKit/602.2.14 (KHTML, like Gecko) Version/10.0.1 Safari/602.2.14'
		self.headers={'User_Agent':self.user_agent}
		self.enable=False
		self.pageIndex=0
		self.pageStorage=[]
		self.result=[]

	def getpage(self):
		url='https://book.douban.com/top250?start='+str(self.pageIndex)
		req=urllib.request.Request(url,headers=self.headers)
		with urllib.request.urlopen(req) as response:
			pageCode=response.read().decode('utf-8')
		p=re.compile(r'.*?title=.*?>(.*?)<.*?<p class="pl">(.*?)</p>.*?<span class="rating_nums">(.*?)</span>.*?\((.*?)\).*?<span class="inq">(.*?)</span>',re.S)
		self.result=re.findall(p,pageCode)
		book_list=[]
		for item in self.result:
			#book_list.append([item[0].strip(),item[1].strip(),item[2].strip(),item[3].strip(),item[4].strip()])
			book_list.append([item[0].strip(),item[1].strip(),item[2].strip(),item[3].strip()])
		for item in book_list:
			print(item)
		return pageCode
	def start(self):
		self.enable=True
		while self.pageIndex<10:
			print('{}~{}'.format(self.pageIndex*25,(self.pageIndex+1)*25-1))
			pageCode=self.getpage()
			self.pageIndex+=1



if __name__=='__main__':
	douban_spider=Douban()
	douban_spider.start()