GO语言基础教程（253）go-colly框架之go-colly框架的应用实例：Go语言爬虫神器：go-colly框架详解与实战攻略-优快云博客

听说爬虫工程师分为两种：一种是用Colly的，另一种是还没用过Colly的。

一、Colly：爬虫界的瑞士军刀

Colly是目前GitHub上星级最高的Go语言爬虫框架，具有8600+星。它快速优雅，在单核上每秒可以发起1K以上请求；以回调函数的形式提供了一组接口，可以实现任意类型的爬虫。

Colly的设计哲学是简洁而不简单——它提供了丰富的API，却能轻松应对各种复杂的抓取任务。

想象一下，你平时用瑞士军刀就能完成那些需要一大箱工具才能做的事情，Colly就是爬虫领域的瑞士军刀。

安装Colly

安装Colly只需要一行命令：

go get -u github.com/gocolly/colly

在代码中导入包：

import "github.com/gocolly/colly/v2"

就这么简单！你已经准备好了爬虫利器。

二、Colly的核心机制解析

理解Colly的工作原理，就像理解一台精良的咖啡机——每个部件各司其职，协同工作。

回调函数的执行顺序

Colly通过一系列回调函数来控制爬虫行为，它们的调用顺序如下：

OnRequest - 在发起请求前被调用
OnError - 请求过程中如果发生错误被调用
OnResponse - 收到回复后被调用
OnHTML - 在OnResponse之后被调用，如果收到的内容是HTML
OnScraped - 在OnHTML之后被调用

这种设计让开发者能够精准控制爬虫的每个环节，就像导演在指挥一场精心编排的演出。

三、基础爬虫实战：从“Hello World”开始

让我们先来看一个最简单的Colly爬虫示例，它就像学习编程时的“Hello World”：

package main

import (
    "fmt"
    "log"

    "github.com/gocolly/colly/v2"
)

func main() {
    // 创建一个新的Colly实例
    c := colly.NewCollector()
    
    // 定义收集的域名，防止爬虫爬取到其他网站
    c.AllowedDomains = []string{"example.com"}
    
    // 当找到链接时执行的操作
    c.OnHTML("a[href]", func(e *colly.HTMLElement) {
        link := e.Attr("href")
        fmt.Println(