第一个R爬虫

weixin_39234072

于 2018-08-17 12:46:28 发布

阅读量1.1k

点赞数 1

CC 4.0 BY-SA版权

文章标签： R语言学习 rvest 词云

本文链接：https://blog.youkuaiyun.com/weixin_39234072/article/details/81775722

本文介绍了使用R语言的rvest包爬取2018年政府工作报告，结合jiebaR进行分词和统计词频，最终通过wordcloud2库可视化关键词，揭示报告核心——“发展”和“改革”。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

参考博客https://blog.youkuaiyun.com/wzgl__wh/article/details/72804687# 写了我的
第一个R语言虫
https://blog.youkuaiyun.com/u012485480/article/details/79883919 第一个R语言爬虫

我们爬取的是2018年政府工作报告
首先需要载人的包有：xml2、rvest爬虫、jiebaR用于分词，统计词频、wordcloud2 用于对文本进行可视化。
1、用rvest包爬取网页上的文章

library(rvest)
library(xml2)
url<-'http://www.gov.cn/zhuanti/2018lh/2018zfgzbg/zfgzbg.htm'
web<-read_html(url,encoding="utf-8") #读取数据，规定编码 
position<-web %>% html_nodes("div.event_box div p")%>%html_text()#read_html(url,encoding=”utf-8”)函数用来读取网页数据，存储到web 中、html_text() 获取标签内的文本信息
posit