R语言：网页抓取之不同提取方法解析

最新推荐文章于 2025-07-07 16:26:55 发布

于建民

最新推荐文章于 2025-07-07 16:26:55 发布

阅读量1.4w

点赞数 1

CC 4.0 BY-SA版权

分类专栏：工具文章标签： R语言网页数据提取

本文链接：https://blog.youkuaiyun.com/yujianmin1990/article/details/48396431

本文详细介绍了使用R语言进行网页数据提取的两种方法：XML解析和正则表达式。通过`readHTMLTable`、`xmlTreeParse`与`getNodeSet`等函数，结合具体实例讲解如何从网页中获取非表格化数据。同时，推荐了相关资源以帮助读者深入理解和应用这两种方法。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

　　接上篇，用R获取网页数据之后的处理
　　当获取表格数据时，可以用readHTMLTable来获取数据，很方便。当数据不是表格化的时，则常用xmlTreeParse（xmlParse）和getNodeSet配合来获取相应的数据。xmlTreeParse 来抓取页面数据，并且形成树。getNodeSet来对树结构数据，根据XPath语法来选取特定的节点集。下面举个实际例子来讲解一下这两个最重要函数的应用。

（一）XML解析网页并提取数据

library(XML)
URL = 'http://www.w3school.com.cn/example/xmle/books.xml'
doc <- xmlParse(URL);##解析网页##还有其他参数，如encoding##
##(1)选取属于bookstore子元素的第一个book元素 
getNodeSet(doc,'/bookstore/book[1]') ##此方法不常用
##获取根节点
top <- xmlRoot(doc)
##获取某个节点下数据
top[2]
##使用XPath语句查询
##(2)先筛选符合条件的节点
###注意下面的单引号和双引号可能在R里会导致没有执行结果的问题###
Node <- getNodeSe