刚开始学习python,看了些语法后就想找些小例子来写写。因为语言这东西光看不写是不行的。知乎上看到大家各种说python写的网络爬虫非常nb的样子,便也想来搞搞。正好又看到黑板课老师在知乎的回答,一不小心点进了黑板课爬虫闯关,于是踏上了闯关的征程。
第一题比较简单,就是根据网页给的数字不断更新网址后的数字,直到提示进入下一关为止。分析一下大概思路:用python获取网页,然后从网页的内容中提取这个数字,再把这个数字加在网址后面继续进行以上操作。
那如何知道是否到了最后一个网页呢?先手动进行几次操作,观察网页内容,找出他们的相同点,用正则表达式判断即可。
思路是清楚,但上面这些我都不会啊,特别是正则表达式这么基础的东西,以前从来没用过。说出来也不怕笑话,本科接触的东西实在太少了,只能现学现卖了。
首先,python获取网页,百度一下,大家差不多都推荐,urllib2和requests,后来用之后对比以下,requests更强大,也更简洁,简单一行代码就能获取网页内容,也发现了python的简洁和强大。
import requests
html = requests.get('http://www.baidu.com').content
print html
网