1. 云课堂课程数据-写在前面
今天咱们抓取一下云课堂的课程数据,这个网站的数据量并不是很大,我们只需要使用requests
就可以快速的抓取到这部分数据了。
你第一步要做的是打开全部课程的地址,找出爬虫规律,地址如下:https://study.数字.com/courses/
原案例涉及【网易云课堂】数据,原爬取网址为:https://study.163.com/courses/ 因版权问题,已做删除处理,现目标网址切换为橡皮擦搭建的静态数据页面
我简单的看了一下,页面数据是基于
https://study.数字.com/p/search/studycourse.json
这个地址进行异步加载的。你自己尝试的时候需要借助开发者工具
进行多次尝试,抓取到这个地址的数据为准。
还有一个地方需要注意,这次是post
提交方式,并且提交数据是payload
类型的,这个原因导致我们的代码和以前的略微有一些不同的地方。