写爬虫有很多种方法,但通过Chrome浏览器内嵌的sinnpet写爬虫有很多优势:
1.编写快速
2.无需另行安装运行环境,有chrome就可以爬
3.解决了登录问题
当然它也有缺点,但爬取一些日常的数据已完全够用了,下边就介绍一下如何通过sinnpet编写一个爬虫。
一、sinnpet的配置和运行
(这部分较简单暂时省略)
二、页面抓取方法基础
1.通过fetch+response获取目标地址的HTML页面
2.通过字符串函数定位页面中有用的信息
3.返回字符串数组
//获取目标地址的HTML页面
async function getPage(TagUrl) {
//fetch页面
let response = await fetch(TagUrl);
//获取response
var htmlText = await response.text();
//获取消息字符串
var MsgStartPos = htmlText.indexOf("开始字符xxx");
var MsgEndPos = htmlText.indexOf("结束字符xx",MsgStartPos+1);
var MsgStr = htmlText.substring(MsgStartPos,MsgEndPos);
//定义返回用字符串数组
var OutStrArr = new Array();
//处理字符串,将有用信息放入字符串数组中
//返回字符串
return OutStrArr ;
}
未完待续…