作为第一个学习的爬虫小程序,选取csdn学院,主要是该网站无反爬或较简单,不需要模拟浏览器和代理IP,也不需要验证和登录信息,对于新手而言,是非常亲民的;其次,需要爬取的内容都能在网页源码中显示。本篇文章使用urllib和正则表达式进行爬取。
步骤一:
分析网站,建议使用能查看网页源码的浏览器分析网站,找到所有课程,价格和课时;
课程名所在位置:
<img src="https://img-bss.youkuaiyun.com/201708171721537407.gif" width="179" height="120" alt="让机器“看见”—计算机视觉原理及实战">
价格所在位置:
<p class="clearfix"> <i> ¥269.10 </i>
课时所在位置:
&