1:按照正则抓取的话,对于大多数同网站的网页能都抓取,但是对于某一个或某几个页面正则匹配失败,但是正则表达式本身正确,因为它对其他相同页面可匹配;等过段时间再次抓取匹配,又匹配成功。
问题:如果在抓取了大量的数据后,突然遇到这种情况,程序崩掉,那么重新抓取,浪费时间,并且重新可能遇到该种情况;
解决方法:1、对于抓取下来的网页,对于文本量稍大的话,正则匹配会慢一些,可能会出错,可以将不相关的源码文本去掉,同正则只匹配与正则表达式相关的块源码文本
2、如果用beautifulsoup第三方包会不会好点
2、对于1出现的问题,如果继续用正则处理,我们可以将那些理论上能够抓取到的数据,但是实际上没有抓取到的,可以先跳过去这些页面,继续后面的页面的抓取,把这些没有抓取到的页面的 url 记录下来,当网站抓取完毕后,再重新抓取这么记录下来的 url
多线程
http://www.ibm.com/developerworks/cn/aix/library/au-threadingpython/