第一只虫子

本文介绍了一个简单的Python爬虫实现过程,该爬虫用于抓取指定网页上的特定标签内容。通过使用requests库发起HTTP请求并利用re库进行正则匹配,实现了对目标网页中所需数据的有效抓取。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

#很久打算看python了,一直懒着,终于暑假有时间了,

#闲话少说,言归正传。

#这是针对http://www.jikexueyuan.com/course/821_2.html?ss=1此网页的某些tag做的爬虫

import requests
import re

#引入正则表达式模块
#hi={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/50.0.2661.102 Safari/537.36'}

#模拟用户登录,避免爬虫被拒绝服务
html=requests.get('http://www.jikexueyuan.com/course/821_2.html?ss=1')
html.encoding='utf-8'
print( html.text)

#爬取网页context,定义编码格式

#title=re.findall('posOper=900027'>(.*?)</a>'.html.text.re.s)
 #                for each in title:
  #                   print(each)
am='posOper=900027">(.*)</a>'
pm=html.text

#查看源码获取特征信息,这里最好分开写am,pm,
sm=re.findall(am,pm)

for each in sm:
    print(each)

唯一的问题是红色部分把查找项与待查找项在一起写的时候为什么会出错,很奇怪。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值