
爬虫
WandaWang0822
喜欢瞎倒腾、不靠谱的数据小白
展开
-
美国参议院里的合作网络
这是《基于R语言自动收集》这本书的第十二章 ,因为网页已经改变源代码也发生了改变。所以重新整理了代码分享。 美国国会的法案存放在一个相对容易访问的数据库里,地址是:https://www.congress.gov。我们的网络抓取练习的第一步是对数据存放的方式进行检查。为了追踪抓取程序。我们可以(1) 打开https://www.congress.gov。(2) 转到“...原创 2018-07-05 14:28:21 · 613 阅读 · 1 评论 -
R语言对豆瓣电影top250进行分析
我们这学期开设了数据采集课程,完全建立在R软件基础之上。在搜索相关资料过程中,发现关于R爬取的东西特别少,把提取部分分享到博客中希望可以帮助有缘人。library(stringr)library(RCurl)library(XML)在这里找到豆瓣电影所对应的链接https://movie.douban.com/top250?&filter=, 打开这个链接我们可...原创 2018-07-05 14:15:50 · 5058 阅读 · 2 评论