爬虫
WandaWang0822
喜欢瞎倒腾、不靠谱的数据小白
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
美国参议院里的合作网络
这是《基于R语言自动收集》这本书的第十二章 ,因为网页已经改变源代码也发生了改变。所以重新整理了代码分享。 美国国会的法案存放在一个相对容易访问的数据库里,地址是:https://www.congress.gov。我们的网络抓取练习的第一步是对数据存放的方式进行检查。为了追踪抓取程序。我们可以 (1) 打开https://www.congress.gov。 (2) 转到“...原创 2018-07-05 14:28:21 · 718 阅读 · 1 评论 -
R语言对豆瓣电影top250进行分析
我们这学期开设了数据采集课程,完全建立在R软件基础之上。在搜索相关资料过程中,发现关于R爬取的东西特别少,把提取部分分享到博客中希望可以帮助有缘人。 library(stringr) library(RCurl) library(XML) 在这里找到豆瓣电影所对应的链接https://movie.douban.com/top250?&filter=, 打开这个链接我们可...原创 2018-07-05 14:15:50 · 5131 阅读 · 2 评论
分享