今天WPS For Linux Alpha 7发布了,首先感谢WPS团队的辛勤耕耘,
论坛抢包子那个热闹啊,很期待明年的beta。
但论坛抢包子有个问题,楼下跟帖的内容是所有人可见的(包括游客),于是乎就有大量的email地址暴露在大家面前。下面我将用Python试着抓取网页中的这些email地址,顺便练习一下Python的标准库。(老鸟请绕道)
涉及到的库有http.client(处理HTTP)、re(正则表达式)、threading(多线程)。
首先,要抓取网页内容,必须先拿到html页面。http.client.HTTPConnection就是用来做这个工作的。http.client.HTTPConnection的构造函数中,host指明web服务器地址,port指明端口(默认80)。
其中以下几种形式的效果相同:
>>> h1 = http.client.HTTPConnection('www.cwi.nl')
>>> h2 = http.client.HTTPConnection('www.cwi.nl:80')
>>> h3 = http.client.HTTPConnection('www.cwi.nl', 80)
构造函数返回一个HTTPConnection对象,代表了当前这条http连接。然后就可以用这个HTTPConnection对象发送一个request,请求页面。request的四个参数method, url, body, headers就不详说了,很容易理解。不过这里要注意的一点是,headers是个dict,只要将header里的属性和值分别以key:value的形式存入dict即可。另外就是如果要投递cookies,直接在headers里加就行。
发送完request之后就可以用getresponse方法获得页面响应了。getresponse返回一个H
但论坛抢包子有个问题,楼下跟帖的内容是所有人可见的(包括游客),于是乎就有大量的email地址暴露在大家面前。下面我将用Python试着抓取网页中的这些email地址,顺便练习一下Python的标准库。(老鸟请绕道)
涉及到的库有http.client(处理HTTP)、re(正则表达式)、threading(多线程)。
首先,要抓取网页内容,必须先拿到html页面。http.client.HTTPConnection就是用来做这个工作的。http.client.HTTPConnection的构造函数中,host指明web服务器地址,port指明端口(默认80)。
其中以下几种形式的效果相同:
>>> h1 = http.client.HTTPConnection('www.cwi.nl')
>>> h2 = http.client.HTTPConnection('www.cwi.nl:80')
>>> h3 = http.client.HTTPConnection('www.cwi.nl', 80)
构造函数返回一个HTTPConnection对象,代表了当前这条http连接。然后就可以用这个HTTPConnection对象发送一个request,请求页面。request的四个参数method, url, body, headers就不详说了,很容易理解。不过这里要注意的一点是,headers是个dict,只要将header里的属性和值分别以key:value的形式存入dict即可。另外就是如果要投递cookies,直接在headers里加就行。
发送完request之后就可以用getresponse方法获得页面响应了。getresponse返回一个H