写爬虫过程中的一个问题

这几天在写python爬虫。python2.7+selenium+Chrome(为了在测试时实现可视化而使用Chrome,后期换成phantomjs-2.1.1),IDE为pyCharm


爬虫已经写好了,这是开始的一部分代码:

from selenium import webdriver
import os
import time
import re
import urllib
import threading

driver = webdriver.Chrome()
url = "hhhhhh"
driver.get(url)


在测试时,发现代码运行及其慢,所以首先怀疑是自己测试的数据量过大造成的(6780+个网页),遂将数据量改为5,问题依然存在。于是怀疑是电脑当前运行的程序过多,当把电脑重启以后,问题仍在。当我在cmd下运行这几行代码时,发现Chrome很快被驱动(此时怀疑是pyCharm的问题)。


……


然后突然来了灵感,感觉是pyCharm在导入第三方库时出现问题。于是针对此问题进行了测试:

一、在IDE中输入以下代码:

import time
start = time.clock()
from selenium import webdriver
print "haha"
end = time.clock()
print end-start

其运行结果是:



二、在IDE中输入以下代码:

import time
start = time.clock()
print "haha"
end = time.clock()
print end-start

其运行结果是:



分析一、二:

在同样有语句“print "haha" ”的情况下,一比二多一句导入selenium的语句,二者的时间竟相差n个数量级。

也就是说,正是导入selenium模块的操作,费了时间,而在cmd命令行下,并不存在此问题。

为了检验是否为pyCharm版本的问题,特意在原有pyCharm4.5的基础上,又下载安装了2016.03版本,问题仍然存在。


因此,出现费时问题的原因是使用pyCharm导入selenium模块时的速度及其慢


问题找到了,但是出现这个现象的原因、背后的道理以及相应的解决方法还未找到。还望看到此文的各位,有任何想法或者解决方法,多多交流和指点。可怜





以下是几个使用VBA编爬虫代码示例: ### 示例一:简单的HTTP请求并提取内容 ```vba Sub HTTPREQUEST() Dim httpReq As XMLHTTP60 Set httpReq = New XMLHTTP60 Dim Content As String Dim arr1() As String Dim arr2() As String Dim arr3() As String Dim arr4() As String httpReq.Open "GET", "https://nihongokyoshi-net.com/2019/07/03/jlptn1-grammar-ikan/" httpReq.Send Do While httpReq.readyState < 4 DoEvents Loop Debug.Print httpReq.responseText Content = httpReq.responseText arr1 = Split(Content, "<section class=""single-post-main"">") arr2 = Split(arr1(1), "</section>") arr3 = Split(arr2(0), "<span id=""i"">") arr4 = Split(arr3(1), "</span>") Sheet1.Cells(1, 1) = arr4(0) arr3 = Split(arr2(0), "<span class=""s1"">") arr4 = Split(arr3(1), "</span>") Sheet1.Cells(2, 1) = arr4(0) Set httpReq = Nothing End Sub ``` 这个示例通过`XMLHTTP60`对象发送一个GET请求到指定的URL,获取网页内容,然后使用`Split`函数分割字符串,提取所需的信息并将其入工作表中 [^2]。 ### 示例二:抓取网页内容并使用正则表达式分析 ```vba Sub getWebPage() Dim s As String, xhttp As Object Set xhttp = CreateObject("Microsoft.XMLHTTP") xhttp.Open "GET", "http://www.boc.cn/sourcedb/whpj/", False '将抓取到的网页字符传保存到变量 s 中,然后交个getRate 子过程处理 s = xhttp.responsetext getRate s End Sub '本子过程是第29回作业的参考答案,能够接收一个字符串参数 '然后将使用正则表达式分析字符串,并将捕获组内容存入工作表 Sub getRate(s As String) Dim reg As Object, m As Object, mchs As Object Dim i As Long, j As Long, p As String Set reg = CreateObject("vbscript.regexp") p = "" reg.Pattern = p reg.Global = True Set mchs = reg.Execute(s) i = 2 For Each m In mchs For j = 0 To m.submatches.Count - 1 Cells(i, j + 1) = m.submatches.Item(j) Next j i = i + 1 Next m End Sub ``` 此示例使用`CreateObject("Microsoft.XMLHTTP")`发送GET请求获取网页内容,然后将内容传递给`getRate`子过程,使用正则表达式分析字符串并将捕获组内容存入工作表 [^3]。 ### 示例三:根据工作表中的URL参数进行爬虫 ```vba Sub Crawler() Dim xmlhttp As Object Dim strURL As String Dim i As Integer Dim rowNum As Integer Dim Content As String Dim key As String rowNum = Sheet1.UsedRange.Rows.Count For i = 2 To rowNum strURL = "http://www.fake.com/Id=" & Sheet1.Cells(i, 2).Value & "&effectiveDate=" & Sheet1.Cells(i, 4) Set xmlhttp = CreateObject("Microsoft.XMLHTTP") xmlhttp.Open "GET", strURL, False xmlhttp.send Content = xmlhttp.responsetext arr1 = Split(Content, "<Holding>") 'You cannot dim arr1() at the beginning arr2 = Split(arr1(1), "</Holding>") Sheet3.Cells(i, 5) = arr2(0) Set xmlhttp = Nothing Next i End Sub ``` 该示例从工作表中读取URL参数,构建URL并发送GET请求,获取网页内容,提取所需信息并入另一个工作表中 [^4]。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值