1、扒取网页和基本代码:
import urllib
response = urllib2.urlopen("http://www.baidu.com") print response.read()
response = urllib2.urlopen("http://www.baidu.com")
print response.read()
首先我们调用的是 urllib2 库里面的 urlopen 方法,传入一个 URL,这个网址是百度首页,协议是 HTTP 协议,当然你也可以把 HTTP 换做 FTP,FILE,HTTPS 等等,只是代表了一种访问控制协议,urlopen 一般接受三个参数,它的参数如下:urlopen(url, data, timeout) 第一个参数 url 即为 URL,第二个参数 data 是访问 URL 时要传送的数据,第三个 timeout 是设置超时时间。 第二三个参数是可以不传送的,data 默认为空 None,timeout 默认为 socket._GLOBAL_DEFAULT_TIMEOUT 第一个参数 URL 是必须要传送的,在这个例子里面我们传送了百度(也可以是任意网址)的 URL,执行 urlopen 方法之后,返回一个 response 对象,返回信息便保存在这里面,response 对象有一个 read 方法,可以返回获取到的网页内
2、Post方式
我们引入了 urllib 库,现在我们模拟登陆 优快云,当然上述代码可能登陆不进去,因为 优快云 还有个流水号的字段,没有设置全,比较复杂在这里就不写上去了,在此只是说明登录的原理。一般的登录网站一般是这种写法。 我们需要定义一个