爬虫--实战--极课学院课程爬取

该篇博客介绍了一次实战爬取极课学院课程信息的过程,涉及Request请求网页、正则表达式匹配内容,以及通过课程页面的class属性获取数据。博客内容包括爬取课程名称、介绍、时间、等级和学习人数,使用Python实现爬虫脚本,并将抓取的数据保存到本地文件。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

#实战环节
#目标网站 http://www/jikexueyuan.com/course/
#目标内容:课程名称,课程介绍,课程时间,课程等级,学习人数
#涉及到的技术有 Request抓取网页  re.sub换页 正则表达式匹配内容
#当抓取的内容很多时候要获得内容的时候可以利用标签的class属性
#利用先抓大再抓小的技巧
import requests
import re
#将命令提示符的编码强制转换为utf-8
import sys
reload(sys)
sys.setdefaultencoding("utf-8")
class spider(object):
	def __init__(self):
		print "开始爬取内容"
	#根据单个连接得到抓取的网页内容
	def getsource(self,url):
		html = requests.get(url)
		return html.text
	#根据页面总的数量获取所有的链接
	def changepage(self,url,total_page):
		now_page = int(re.search('pageNums=(\d+)',url,re.S))
		page_group = []
		for i in range(now_page, total_page):
			#利用re替换掉其中页号内容
			link = re.sub('pageNum=\d+','pageNum=%s'%i, url,re.S)
			page_group.append(link)
		return page_group
	#先抓取每个课程中的大内容
	#source代表的是每个页面内容
	def geteveryclass(self,source):
		everyclass = re.findall('(<li deg="".*?</li>)',source,re.S)
		return everyclass;
	#对每个大的内容再进行解析得到对应的详细的信息
	def getinfo(self,eachclass):
		#创建了一个字典
		info = []
		info['title'] = r
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值