络爬虫的操作方法很直观,想要什么,就把他们标记出来,网络爬虫就会自动把他们存下来。标记过程很自由,不讲究顺序。
一、直观标注
在网页上,看到想采集的内容,点击两次,就弹出一个标签,给标签起个名字。把所有要采集的内容逐个这样标注。不分先后顺序。


二、整理箱
采集到的内容要存到一个表格里面,这个表格就叫整理箱,表示:“把网页上的内容整理好,存在一个箱子中”。这个整理箱显示在右边的一个浮动工作台上。

三、映射
“映射”这个词经常出现,表示:“把网页上的内容与整理箱中的标签建立联系”。标注过程就是建立映射关系,有了这个关系,网络爬虫就知道从哪里采集数据并存储到哪里。

本文介绍了一种直观简便的网络爬虫操作方法,通过在网页上标记目标内容,自动采集并存储至整理箱,实现数据抓取。重点讲解了标记、整理箱及映射的概念。
2029

被折叠的 条评论
为什么被折叠?



