糗事百科爬虫

本文分享了一个使用Python实现的糗事百科爬虫程序。该程序通过urllib2获取糗事百科网页内容,并利用正则表达式解析网页,抓取每一页的段子标题和内容。此外,还实现了按页显示内容并允许用户通过输入'quit'来退出的功能。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

代码如下:(友情提示输入quit结束调用)

Qiushi.py


#!/usr/bin/env python
#encoding:utf-8
#By eathings

import urllib2
import re

class Console_page:
	def __init__(self):
		self.page = 1
		self.enable = True
		self.qiushi=re.compile('<div.*?class="content".*?title="(.*?)">([\s\S]*?)</div>')
	def getpage(self, page):
		url = "http://www.qiushibaike.com/hot/page/" + str(page)
		response = urllib2.urlopen(url)
		result = response.read()
		en_result = re.sub("<br/>", "", result)
		items = re.findall(self.qiushi, en_result)
		return items
	
	def show_page(self,page):
		view = self.getpage(page)
		for i in view:
			print u"第 %d页"%page, i[0], i[1]
			inputs = raw_input()
			if inputs == 'quit':
				self.enable = False
				break

	def startread(self):
		while self.enable:
			#print self.page
			page = self.page
			self.show_page(page)
			self.page += 1

qiushibaike = Console_page()
qiushibaike.startread()



                
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值