前言
接触爬虫的原因是帮女朋友抢包,觉得在网站上手动刷新太麻烦,于是产生了用爬虫爬取网页数据,判断是否有货然后发邮件通知的一个思路。我是第一次学习爬虫,现在就将自己的思路与代码记录下来,希望能把这个系列坚持下去,因为爬虫真的很方便也很有意思。
提示:以下是本篇文章正文内容,下面案例可供参考
一、编程语言
1.1 编译器
pycharm
二、浏览器驱动
2.1 下载驱动
因为是爬取网页数据,所以需要浏览器驱动才能获取网页,这里推荐使用Chrome。这里是谷歌浏览器驱动的国内镜像下载地址,点进去之后,选择最近接自己的谷歌浏览器版本下载。
2.2 放置驱动
在下载好驱动后,选择操作系统类型对应的驱动移动到本机Python安装目录下的Scripts文件下。如下图所示。
三、代码编写
先以一个功能是不断刷新网页的爬虫举例子。
代码如下(示例):
import time
from selenium import webdriver #Selenium是一个用于Web应用程序测试的工具
driver= webdriver.Chrome() # 需要下载对应浏览器驱动到python 安装目录
try:
Test='https://www.baidu.com' #测试链接,此处可以换成任意网址
driver.get(Test) # 打开浏览器,并前往链接
except Exception as e:
print(e)
for i in range(1000): # 刷新次数
driver.refresh() # 刷新网页
time.sleep(5) # 五秒一次
print("freshing---")
运行代码后,这个脚本就会以5秒一次的速度刷新目标网页。
总结
刷新网页是一个最简单的爬虫功能,后续我会再通过我的学习将自己的心得与经验分享出来。