网页抓取就是把URL地址中指定的网络资源从网络流中读取出来,保存到本地。
在Python中,可以使用urllib2这个模块来抓取网页,模块提供了读取web页面数据的接口,我们可以像读取本地文件一样读取www和ftp上的数据.
HTTP是基于请求和应答机制的:客户端提出请求,服务端提供应答。
以下实现了最简单的urllib2抓取网页。
网页抓取就是把URL地址中指定的网络资源从网络流中读取出来,保存到本地。
在Python中,可以使用urllib2这个模块来抓取网页,模块提供了读取web页面数据的接口,我们可以像读取本地文件一样读取www和ftp上的数据.
HTTP是基于请求和应答机制的:客户端提出请求,服务端提供应答。
以下实现了最简单的urllib2抓取网页。