
R语言 网络爬虫
文章平均质量分 89
偷闲阁
这个作者很懒,什么都没留下…
展开
-
R语言爬虫:RSelenium包常用函数
文字太多,一眼找不到要找的内容? Ctrl+F 即可查找~ 使用RSelenium包控制浏览器主要依靠remoteDriver系列函数: remoteDriver( remoteServerAddr, port, browserName, path, version,原创 2018-01-09 09:05:50 · 7093 阅读 · 0 评论 -
R语言:使用rvest包抓取新浪财经A股交易数据
R语言网络爬虫工具中比较常用的包有RCurl、XML、rvest等,本文以新浪财经频道A股交易数据的抓取为例简单总结一下rvest包的用法。 首先介绍一下我们要抓取的对象,我们以“中信证券(600030)”为例,抓取其日度交易数据。url地址为http://vip.stock.finance.sina.com.cn/corp/go.php/vMS_FuQuanMarketHistory/st原创 2017-11-21 10:09:28 · 7155 阅读 · 1 评论 -
R语言:RSelenium包爬取动态网页
目前很多网站的数据采用异步加载的方式呈现,以进口商品统计月报为例,当我们点击下一页时,表格中的数据会更新,但是网站的URL不会发生变化。对于这种网站,如果使用rvest包或RCurl包进行爬取,只能抓到第一页的数据。不过不用担心,对付这种情况,可以使用R语言中RSelenium包。 RSelenium包可以通过调用Selenium Server来模拟浏览器环境,它可以模拟浏览器的点击、滚原创 2018-01-07 23:28:58 · 12946 阅读 · 3 评论 -
R语言爬取动态网页:使用RSelenium包和Rwebdriver包的前期准备
在使用rvest包抓取新浪财经A股交易数据中我们介绍了rvest包的用法,然而rvest包只能抓取静态网页,而对诸如ajax异步加载的动态网页结构无能为力。在R语言中,爬取这类网页可以使用RSelenium包和Rwebdriver包。 RSelenium包和Rwebdriver包都是通过调用Selenium Server来模拟浏览器环境。其中,Selenium是一个用于网页测试的Java...原创 2018-01-04 16:00:46 · 13231 阅读 · 11 评论 -
R语言可视化:使用ggplot2绘制人口金字塔
人口金字塔是进行人口数据可视化时常用的一种统计图形,可以形象地描述人口年龄和性别的分布情况。最近工作上经常处理人口数据,于是试着使用ggplot2绘制了一下。在这里记录一下,顺便也熟悉一下ggplot2的用法。 上图所示的人口金字塔是根据我国2010年人口普查的相关数据进行绘制的,绘制过程主要分为以下三部分,(1)数据爬取,(2)分面设置以及(3)图形绘制。1、数据爬取 如...原创 2018-08-17 01:08:13 · 10448 阅读 · 3 评论