参考博客https://blog.youkuaiyun.com/wzgl__wh/article/details/72804687# 写了我的
第一个R语言虫
https://blog.youkuaiyun.com/u012485480/article/details/79883919 第一个R语言爬虫
我们爬取的是2018年政府工作报告
首先需要载人的包有:xml2、rvest爬虫、jiebaR用于分词,统计词频、wordcloud2 用于对文本进行可视化。
1、用rvest包爬取网页上的文章
library(rvest)
library(xml2)
url<-'http://www.gov.cn/zhuanti/2018lh/2018zfgzbg/zfgzbg.htm'
web<-read_html(url,encoding="utf-8") #读取数据,规定编码
position<-web %>% html_nodes("div.event_box div p")%>%html_text()#read_html(url,encoding=”utf-8”)函数用来读取网页数据,存储到web 中、html_text() 获取标签内的文本信息
posit