R语言爬取动态网页(一)
(2016-11-09 22:48:58)
参考http://www.jb51.net/article/58942.htm的分析,利用开发者工具找到真正的内容
library(rvest)
library(stringr)
url
web
name%html_nodes("tr td
")%>%html_text()#提取文本,如项目编号
name
name
id%html_nodes("tr td
span")%>%html_attr("id")#提取属性
id
library(RCurl)
url2
web2
detect
return(str_detect(web2,id[i]))
}
res
res
id
patter
value
str_c(name[1],value)
patter
value
value
str_c(name[2],value)#拼接
后期还要有一些的字符串的处理,因为格式不一致,正则表达式不好写,这里暂且搁置
分享:
喜欢
0
赠金笔
加载中,请稍候......
评论加载中,请稍候...
发评论
登录名: 密码: 找回密码 注册记住登录状态
昵 称:
评论并转载此博文

发评论
以上网友发言只代表其个人观点,不代表新浪网的观点或立场。
本文介绍如何使用R语言抓取动态网页内容,并通过具体案例演示了利用rvest和RCurl库进行网页解析的过程。文中详细解释了如何选取合适的节点提取所需信息。
626

被折叠的 条评论
为什么被折叠?



