随笔---有关爬虫的总结

最新推荐文章于 2025-06-14 12:18:15 发布

原创最新推荐文章于 2025-06-14 12:18:15 发布 · 198 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#随笔

本文分享了爬虫编程的经验，强调了将网站链接独立于代码之外的必要性，以便于管理和应对安全问题。作者提到，由于一些博客平台的安全策略，含有不安全链接的代码可能无法发布。解决方案是将链接存储在外部文件，如`links.json`，并实现代码自动读取。文中展示了如何通过`RunByStaticLinkJson`和`Scout`函数实现这一优化。

写了一些美女图片的爬虫一段时间后，

略有总结

首先，网站的连接应该分离成一个独立的文件，之前为了写得快，会直接把图片网站写在代码中，发现当我需要不断更改图片网站的时候需要不断编译代码，这样就不够优化的。

其次原因是在一些文章平台会有链接的识别，从而导致因为代码中有一些网站链接不安全，所以博客网站是不会让你发布出来的。

意思意思，网站不安全，导致代码无法传播，所以应该把代码和网址分开传播，在代码中增加自动读取文件的功能即可。

package crawler


func RunByStaticLinkJson(projectName string,bigTile string,sleepTime int){
	// 通过读取本地links.json的网址而启动的爬虫
	// projectName 整个网站的名称
	bigTilePath := InitProject(projectName,bigTile)  // 这个是创建初始化
	linksAndPages := LoadPagesLinkFromLocal()  // 加载本地links.json -> map[string]float64(interface{})
	StaticFilter(linksAndPages,sleepTime,bigTilePath)
}

func Scout(){
	// 侦察
	linksAndPages:=LoadPagesLinkFromLocal()  // 侦察读取links.json,json文件应该只有一个元素,因为侦擦多个pages无意义
	// 当使用的是Scout模式时候,value的值为0的时候,表示是'a'模式,当value的值是1的时候表示'img'模式
	for k,v := range linksAndPages{
		if v==0.0{   // 从json读取的数值类型是float64
			ScoutPages(k,"a")
		}else{
			ScoutPages(k,"img")
		}
		break  // 只拿list中的第一条数据
	}
	
}