随笔---有关爬虫的总结

本文分享了爬虫编程的经验,强调了将网站链接独立于代码之外的必要性,以便于管理和应对安全问题。作者提到,由于一些博客平台的安全策略,含有不安全链接的代码可能无法发布。解决方案是将链接存储在外部文件,如`links.json`,并实现代码自动读取。文中展示了如何通过`RunByStaticLinkJson`和`Scout`函数实现这一优化。

写了一些美女图片的爬虫一段时间后,

略有总结

首先,网站的连接应该分离成一个独立的文件,之前为了写得快,会直接把图片网站写在代码中,发现当我需要不断更改图片网站的时候需要不断编译代码,这样就不够优化的。

其次原因是在一些文章平台会有链接的识别,从而导致因为代码中有一些网站链接不安全,所以博客网站是不会让你发布出来的。

意思意思,网站不安全,导致代码无法传播,所以应该把代码和网址分开传播,在代码中增加自动读取文件的功能即可。

package crawler


func RunByStaticLinkJson(projectName string,bigTile string,sleepTime int){
	// 通过读取本地links.json的网址而启动的爬虫
	// projectName 整个网站的名称
	bigTilePath := InitProject(projectName,bigTile)  // 这个是创建初始化
	linksAndPages := LoadPagesLinkFromLocal()  // 加载本地links.json -> map[string]float64(interface{})
	StaticFilter(linksAndPages,sleepTime,bigTilePath)
}

func Scout(){
	// 侦察
	linksAndPages:=LoadPagesLinkFromLocal()  // 侦察读取links.json,json文件应该只有一个元素,因为侦擦多个pages无意义
	// 当使用的是Scout模式时候,value的值为0的时候,表示是'a'模式,当value的值是1的时候表示'img'模式
	for k,v := range linksAndPages{
		if v==0.0{   // 从json读取的数值类型是float64
			ScoutPages(k,"a")
		}else{
			ScoutPages(k,"img")
		}
		break  // 只拿list中的第一条数据
	}
	
}

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值