写了一些美女图片的爬虫一段时间后,
略有总结
首先,网站的连接应该分离成一个独立的文件,之前为了写得快,会直接把图片网站写在代码中,发现当我需要不断更改图片网站的时候需要不断编译代码,这样就不够优化的。
其次原因是在一些文章平台会有链接的识别,从而导致因为代码中有一些网站链接不安全,所以博客网站是不会让你发布出来的。
意思意思,网站不安全,导致代码无法传播,所以应该把代码和网址分开传播,在代码中增加自动读取文件的功能即可。
package crawler
func RunByStaticLinkJson(projectName string,bigTile string,sleepTime int){
// 通过读取本地links.json的网址而启动的爬虫
// projectName 整个网站的名称
bigTilePath := InitProject(projectName,bigTile) // 这个是创建初始化
linksAndPages := LoadPagesLinkFromLocal() // 加载本地links.json -> map[string]float64(interface{})
StaticFilter(linksAndPages,sleepTime,bigTilePath)
}
func Scout(){
// 侦察
linksAndPages:=LoadPagesLinkFromLocal() // 侦察读取links.json,json文件应该只有一个元素,因为侦擦多个pages无意义
// 当使用的是Scout模式时候,value的值为0的时候,表示是'a'模式,当value的值是1的时候表示'img'模式
for k,v := range linksAndPages{
if v==0.0{ // 从json读取的数值类型是float64
ScoutPages(k,"a")
}else{
ScoutPages(k,"img")
}
break // 只拿list中的第一条数据
}
}
本文分享了爬虫编程的经验,强调了将网站链接独立于代码之外的必要性,以便于管理和应对安全问题。作者提到,由于一些博客平台的安全策略,含有不安全链接的代码可能无法发布。解决方案是将链接存储在外部文件,如`links.json`,并实现代码自动读取。文中展示了如何通过`RunByStaticLinkJson`和`Scout`函数实现这一优化。
1833

被折叠的 条评论
为什么被折叠?



