
R语言爬虫
文章平均质量分 66
基础爬虫
七七禾页
这个作者很懒,什么都没留下…
展开
-
【自学笔记】R语言简单动态网页爬虫——以b站视频信息为例
1、网站信息及爬虫目标以b站某up主的视频主页https://space.bilibili.com/2206456/video为例,要爬取该up主的所有视频标题、播放量及评论,主要采用的是动态网页中常用的httr包,现观察我们的网页情况如下:可以看到,相关的信息可以由network里的“search?mid=......"这个接口得到,查看Preview可看到里面有相应的作者,评论,发布动态的描述、视频标题,观看数、分区等信息,我们以评论数、观看数和标题为例。现在看相应的Headers情况:原创 2020-06-08 15:26:57 · 2817 阅读 · 2 评论 -
【自学笔记】关于R语言的静态网页爬虫
1、网站情况及爬虫目标 网站为:https://fz.fang.anjuke.com/loupan/all/;需要得到的是该页面的所有楼盘信息;观察可知,第一页的网址为前面的网址加上p1/,即https://fz.fang.anjuke.com/loupan/all/p1/,同理,第i页为原有网址加上pi/。同样采用循环语句得到共10页的楼盘信息。2、Xpath要得到相应的信息需要知道每个信息保存在html中的哪个节点,可以采用谷歌浏览器打开,右击”检查“可得到网页代码情况:可知,”..原创 2020-06-06 17:38:53 · 1157 阅读 · 2 评论 -
【自学笔记】关于用R下载网页表格
1、网站情况及爬虫目标打开网站:http://gwy.rst.fujian.gov.cn/positiontable,里面有福建省各个市的岗位情况,点击“福州”可以看到网页发生变化,变为:http://gwy.rst.fujian.gov.cn/positiontable/1.htm,出现福州市的岗位表单,同理,其他市的岗位情况对应的网址也只是在网址中的“1.htm”发生变化,分别是“2.htm-9.htm”。因此要爬取所有市的岗位就只需要套一个循环。2、批量输出的路径如果爬虫得到各个市的岗位表原创 2020-06-06 11:54:46 · 770 阅读 · 0 评论