写爬虫过程中的一个问题

最新推荐文章于 2024-11-01 16:00:16 发布

原创最新推荐文章于 2024-11-01 16:00:16 发布 · 643 阅读

CC 4.0 BY-SA版权

这几天在写python爬虫。python2.7+selenium+Chrome（为了在测试时实现可视化而使用Chrome，后期换成phantomjs-2.1.1），IDE为pyCharm

爬虫已经写好了，这是开始的一部分代码：

from selenium import webdriver
import os
import time
import re
import urllib
import threading

driver = webdriver.Chrome()
url = "hhhhhh"
driver.get(url)

在测试时，发现代码运行及其慢，所以首先怀疑是自己测试的数据量过大造成的（6780+个网页），遂将数据量改为5，问题依然存在。于是怀疑是电脑当前运行的程序过多，当把电脑重启以后，问题仍在。当我在cmd下运行这几行代码时，发现Chrome很快被驱动（此时怀疑是pyCharm的问题）。

……

然后突然来了灵感，感觉是pyCharm在导入第三方库时出现问题。于是针对此问题进行了测试：

一、在IDE中输入以下代码：

import time
start = time.clock()
from selenium import webdriver
print "haha"
end = time.clock()
print end-start

其运行结果是：

二、在IDE中输入以下代码：

import time
start = time.clock()
print "haha"
end = time.clock()
print end-start

其运行结果是：

分析一、二：

在同样有语句“print "haha" ”的情况下，一比二多一句导入selenium的语句，二者的时间竟相差n个数量级。

也就是说，正是导入selenium模块的操作，费了时间，而在cmd命令行下，并不存在此问题。

为了检验是否为pyCharm版本的问题，特意在原有pyCharm4.5的基础上，又下载安装了2016.03版本，问题仍然存在。

因此，出现费时问题的原因是使用pyCharm导入selenium模块时的速度及其慢。

问题找到了，但是出现这个现象的原因、背后的道理以及相应的解决方法还未找到。还望看到此文的各位，有任何想法或者解决方法，多多交流和指点。