Python抓取html内容

本文介绍了如何使用Python进行HTML内容抓取,并结合多线程提高爬取效率。通过start方法启动线程,join方法确保线程执行完成。虽然未涉及互斥量和信号量等同步机制,但对于需要深入学习的读者,官方文档提供了相关参考资料。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

今天WPS For Linux Alpha 7发布了,首先感谢WPS团队的辛勤耕耘, 论坛抢包子那个热闹啊,很期待明年的beta。
  但论坛抢包子有个问题,楼下跟帖的内容是所有人可见的(包括游客),于是乎就有大量的email地址暴露在大家面前。下面我将用Python试着抓取网页中的这些email地址,顺便练习一下Python的标准库。(老鸟请绕道)
  涉及到的库有http.client(处理HTTP)、re(正则表达式)、threading(多线程)。
  
  首先,要抓取网页内容,必须先拿到html页面。http.client.HTTPConnection就是用来做这个工作的。http.client.HTTPConnection的构造函数中,host指明web服务器地址,port指明端口(默认80)。
  其中以下几种形式的效果相同:
  >>> h1 = http.client.HTTPConnection('www.cwi.nl')
  >>> h2 = http.client.HTTPConnection('www.cwi.nl:80')
  >>> h3 = http.client.HTTPConnection('www.cwi.nl', 80)
  
  构造函数返回一个HTTPConnection对象,代表了当前这条http连接。然后就可以用这个HTTPConnection对象发送一个request,请求页面。request的四个参数method, url, body,  headers就不详说了,很容易理解。不过这里要注意的一点是,headers是个dict,只要将header里的属性和值分别以key:value的形式存入dict即可。另外就是如果要投递cookies,直接在headers里加就行。
  发送完request之后就可以用getresponse方法获得页面响应了。getresponse返回一个H
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值