urllib是访问网址的利器。
通过几个函数就可以轻松获取请求网页的状态,网页的内容等信息
具体函数如下:
urlopen(url)
read()
close()
实例:
import urllib
page=urlopen("http://blog.youkuaiyun.com/myiloveuuu/article/details/77411771")
htmlContent=page.read()
page.close()
htmlContent是访问页面获取的页面内容,和在网页上通过鼠标右键查看网页源码内容一致。我们网页爬虫所做的大部分操作和正则的使用都是在这个页面内容上做文章的。下面一篇我会说明正则的使用