在R语言的数据处理中,一般来说,为了完成某项操作通常需要使用不止一个函数。往往需要把上一个函数的结果作为下一个函数的输入值,嵌套多次之后才得到最终的结果。在这种情况下,无论是使用一连串括号把函数嵌套起来,还是定义一系列中间变量一步一步做下去,都会显得繁琐而逻辑不清。举个例子,假如我们想计算出http://blog.youkuaiyun.com/weixin_40628687页面中所有博文的点击量最大是多少,大概需要下面5个步骤:
library(rvest)
# 下载网页页面
url <-'http://blog.youkuaiyun.com/weixin_40628687'
webpage <-read_html(url)
# 定位链接位置
xpath <-'//*[@id="main"]/div/ul[2]/li[2]/ul[2]/li/a/div/div/div[3]/span'
content <-html_nodes(webpage, xpath = xpath)
# 提取数字
number <-html_text(content, trim = T)
# 转化为numeric格式
number <-as.numeric(number)
# 最大值
max(number)
如果使用嵌套的话,逻辑更加混乱:
url <-'