R语言RSelenium包爬取动态网页数据前期准备（环境配置）-连载NO.01-优快云博客

生而为人，学无止境。

作为爬虫爱好者，最开始的时候多少都会遇到爬取的时候返回各种bug，抓头挠耳吧；

R语言爬虫的包基础的就是rvest和RCurl，解析的就是xml包，当然你还得有html、css、http协议；

但基本的包仅对于静态网页的爬取比较有效，而对于动态网页（渲染网页）就没用了；

接下来写一下R语言里面对于动态网页爬取（AJAX异步渲染/加载网页）的前期环境配置/搭建（模拟浏览器操作）。这里讲的是Rselenium的，至于Rwebdriver包的话类似，但现在它的包不好下载。

1、基于Rselenium包的环境搭建

install.packages("RSelenium")
library(RSelenium)
#浏览器控制函数
remdr <- remoteDriver(browserName ="firefox")

# 打开浏览器，运行这你会很惊喜
remdr$open()

若你直接下载Rselenium并加载，然后打开浏览器的话就会立马报错：

当然这肯定是错误的做法，但同时你也可以看到它的一点提示：Unable to create new service: GeckoDriverService

GeckoDriver是firefox浏览器的驱动，忘了说，这里是以firefox浏览器为例哦，支持的其他浏览器如chrome类似。

你需要去下载firefox的这个驱动文件，然后放到你安装firefox的目录下。

2、firefox浏览器安装后需要将其安装路径加到系统环境变量中去，记得要把GeckoDriver放到你的浏览器安装目录下。

下载地址：

4 条评论

Suffer008 2019.11.17

Undefined error in httr call. httr output: length(url) == 1 is not TRUE，大神这错怎么改

刺猬多情回复Suffer008 2019.11.18
[reply]Suffer008[/reply] 你访问的不是国内网站？

qq_36589803 2019.07.27

最后运行的时候还是提示下列错误，是什么原因造成的？ [1] "Connecting to remote server" Error in checkError(res) : Undefined error in httr call. httr output: Failed to connect to localhost port 4444: Connection refused

刺猬多情回复qq_36589803 2019.07.27
在第4点里面写了的，把port为4444的进城程关掉就行[face]monkey:1.gif[/face]