#很久打算看python了,一直懒着,终于暑假有时间了,
#闲话少说,言归正传。
#这是针对http://www.jikexueyuan.com/course/821_2.html?ss=1此网页的某些tag做的爬虫
import requests
import re
#引入正则表达式模块
#hi={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/50.0.2661.102 Safari/537.36'}
#模拟用户登录,避免爬虫被拒绝服务
html=requests.get('http://www.jikexueyuan.com/course/821_2.html?ss=1')
html.encoding='utf-8'
print( html.text)
#爬取网页context,定义编码格式
#title=re.findall('posOper=900027'>(.*?)</a>'.html.text.re.s)
# for each in title:
# print(each)
am='posOper=900027">(.*)</a>'
pm=html.text
#查看源码获取特征信息,这里最好分开写am,pm,
sm=re.findall(am,pm)
for each in sm:
print(each)
唯一的问题是红色部分把查找项与待查找项在一起写的时候为什么会出错,很奇怪。