Python抓取html内容

最新推荐文章于 2024-08-16 19:52:36 发布

原创

最新推荐文章于 2024-08-16 19:52:36 发布 · 7k 阅读

2 ·

CC 4.0 BY-SA版权

文章标签：

#html #Html #HTML #python #Python #多线程 #正则表达式

本文介绍了如何使用Python进行HTML内容抓取，并结合多线程提高爬取效率。通过start方法启动线程，join方法确保线程执行完成。虽然未涉及互斥量和信号量等同步机制，但对于需要深入学习的读者，官方文档提供了相关参考资料。

今天WPS For Linux Alpha 7发布了，首先感谢WPS团队的辛勤耕耘，论坛抢包子那个热闹啊，很期待明年的beta。
　　但论坛抢包子有个问题，楼下跟帖的内容是所有人可见的（包括游客），于是乎就有大量的email地址暴露在大家面前。下面我将用Python试着抓取网页中的这些email地址，顺便练习一下Python的标准库。（老鸟请绕道）
　　涉及到的库有http.client（处理HTTP）、re（正则表达式）、threading（多线程）。
　　
　　首先，要抓取网页内容，必须先拿到html页面。http.client.HTTPConnection就是用来做这个工作的。http.client.HTTPConnection的构造函数中，host指明web服务器地址，port指明端口（默认80）。
　　其中以下几种形式的效果相同：
　　>>> h1 = http.client.HTTPConnection('www.cwi.nl')
　　>>> h2 = http.client.HTTPConnection('www.cwi.nl:80')
　　>>> h3 = http.client.HTTPConnection('www.cwi.nl', 80)
　　
　　构造函数返回一个HTTPConnection对象，代表了当前这条http连接。然后就可以用这个HTTPConnection对象发送一个request，请求页面。request的四个参数method, url, body, headers就不详说了，很容易理解。不过这里要注意的一点是，headers是个dict，只要将header里的属性和值分别以key:value的形式存入dict即可。另外就是如果要投递cookies，直接在headers里加就行。
　　发送完request之后就可以用getresponse方法获得页面响应了。getresponse返回一个H

最低0.47元/天解锁文章