爬取中国mooc主页课程名单
1、首先访问中国mooc的主页,是这个样子
2、打开开发者模式,图中红色部分就是想要爬取的一级分类。
在“国家精品”右键选择“检查”,找到所在标签,发现是一个span标签,并且class=‘f-thide’
3、在xpath插件窗中输入//span[@class=‘f-thide’],得到正确结果,因此这是正确的xpath路径。
4、确定网址,url=https://www.icourse163.org/
导入模块urllib.request,获取url的html
import urllib.request as ur
html = ur.urlopen(url).read().decode()
##如果decode(),则读出的内容是2进制,在ascii内的字母符号可以识别,ascii之外的汉字等会逐个字节读取。decode()默认以utf-8进行读取。