Rselenium包定时自动爬取网页的方法

最新推荐文章于 2024-06-22 23:36:06 发布

原创

最新推荐文章于 2024-06-22 23:36:06 发布 · 815 阅读

1 ·

CC 4.0 BY-SA版权

本文介绍了使用R语言Rselenium包进行定时自动爬取网页的两种方法：一是分别设置启动服务器和运行R脚本的定时任务，二是通过批处理程序依次启动服务器和脚本并设置定时运行批处理。重点讲述了第二种方法的具体步骤，包括编写批处理程序和设置系统定时任务。

当需要持续更新通过爬虫获取的数据时，我们通常可以设置定时任务自动爬取，而不用每次人工运行爬虫程序。
通过R语言中的Rselenium包爬取数据需要先启动服务器，所以定时爬取就不只是运行一个R语言脚本程序即可。

        要设置R语言Rselenium包定时自动爬取网页有两个方法：
        方法1.先设置定时任务启动服务器（selenium-server-standalone-4.0.0-alpha-2.jar），再设置另一个定时任务运行R语言脚本程序。
        方法2.在批处理程序(.bat程序)中依次启动服务器、运行R语言脚本程序，设置定时任务运行批处理程序。

        如下是通过方法2设置Rselenium包自动定时爬取网页的步骤：
1.准备好R语言爬虫脚本程序。
   最好先在RGui中通过source('待执行脚本.R')，测试通过R语言脚本程序。
   因为Rscript.exe本质是R程序，而RStudio是R的集成开发环境，是不同的两个程序且RStudio的兼容性更好，所以RStudio成功运行的R程序在R中运行可能会出现其他异常需要处理。
   使用Rselenium包爬取数据的方法及示例见：