python get header repsonse high performance

本文介绍了一个脚本,使用多线程技术并利用HTTP头部请求来批量检查网页链接的状态码,确保链接可用性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >


from urlparse import urlparse
from threading import Thread
import httplib, sys
from Queue import Queue

concurrent = 200

def doWork():
while True:
url=q.get()
status,url=getStatus(url)
doSomethingWithResult(status,url)
q.task_done()

def getStatus(ourl):
try:
url = urlparse(ourl)
conn = httplib.HTTPConnection(url.netloc)
conn.request("HEAD", url.path)
res = conn.getresponse()
return res.status, ourl
except:
return "error", ourl

def doSomethingWithResult(status, url):
print status, url

q=Queue(concurrent*2)
for i in range(concurrent):
t=Thread(target=doWork)
t.daemon=True
t.start()
try:
for url in open('urllist.txt'):
q.put(url.strip())
q.join()
except KeyboardInterrupt:
sys.exit(1)



this can be used to test broken link

change a little to crawl file


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值