抓取问题

本文探讨了使用正则表达式进行网页数据抓取时遇到的匹配失败问题及解决方案,包括改进正则表达式的匹配效率、采用第三方库BeautifulSoup进行处理、记录并重试无法抓取的URL。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1:按照正则抓取的话,对于大多数同网站的网页能都抓取,但是对于某一个或某几个页面正则匹配失败,但是正则表达式本身正确,因为它对其他相同页面可匹配;等过段时间再次抓取匹配,又匹配成功。

问题:如果在抓取了大量的数据后,突然遇到这种情况,程序崩掉,那么重新抓取,浪费时间,并且重新可能遇到该种情况;

解决方法:1、对于抓取下来的网页,对于文本量稍大的话,正则匹配会慢一些,可能会出错,可以将不相关的源码文本去掉,同正则只匹配与正则表达式相关的块源码文本  

                    2、如果用beautifulsoup第三方包会不会好点


2、对于1出现的问题,如果继续用正则处理,我们可以将那些理论上能够抓取到的数据,但是实际上没有抓取到的,可以先跳过去这些页面,继续后面的页面的抓取,把这些没有抓取到的页面的 url 记录下来,当网站抓取完毕后,再重新抓取这么记录下来的 url



多线程

http://www.ibm.com/developerworks/cn/aix/library/au-threadingpython/



评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值