【Go语言爬虫系列01】爬虫入门与Colly框架基础

Gopher部落

已于 2025-03-27 07:04:30 修改

阅读量3.3k

点赞数 66

CC 4.0 BY-SA版权

分类专栏： Go语言爬虫系列文章标签： golang 爬虫开发语言

于 2025-03-25 13:51:42 首次发布

本文链接：https://blog.youkuaiyun.com/GopherTribe/article/details/146501048

Go语言爬虫系列专栏收录该内容

6 篇文章

订阅专栏

📚 原创系列： “Go语言爬虫系列”

🔄 转载说明： 本文最初发布于"Gopher部落"微信公众号，经原作者授权转载。

🔗 关注原创： 欢迎扫描文末二维码，关注"Gopher部落"微信公众号获取第一手Go技术文章。

📑 Go语言爬虫系列导航

本文是【Go语言爬虫系列】的第1篇，点击下方链接查看更多文章

🚀 Go爬虫系列：共12篇

爬虫入门与Colly框架基础 👈 当前位置
HTML解析与Goquery技术详解
Colly高级特性与并发控制
爬虫架构设计与实现（即将发布）
反爬虫策略应对技术（即将发布）
模拟登录与会话维持（即将发布）
动态网页爬取技术（即将发布）
分布式爬虫设计与实现（即将发布）
数据存储与处理（即将发布）
爬虫性能优化技术（即将发布）
爬虫安全与合规性（即将发布）
综合项目实战：新闻聚合系统（即将发布）

📖 文章导读

本文作为Go语言爬虫系列的第一篇，将为您介绍：

网络爬虫的基本概念、工作原理与伦理法律边界
Go语言爬虫开发的优势及常用工具库概览
Colly框架的安装、核心组件与基本架构
实战案例：创建您的第一个新闻网站爬虫
爬虫性能调优：限速与并发控制基础知识

一、爬虫基础概念与伦理边界

1.1 什么是网络爬虫？

网络爬虫（Web Crawler），也称为网络蜘蛛（Spider）或网页采集器，是一种按照特定规则自动浏览并提取网络信息的程序。它模拟人类浏览网页的行为，但速度更快、范围更广，可以高效地从互联网获取和处理大量数据。

爬虫工作原理：

爬虫通常以一个或多个起始URL开始，获取页面内容后，从中提取有价值的数据以及新的URL链接。这些新链接被添加到待爬取队列中，程序循环执行这个过程，像蜘蛛一样在网络上不断"爬行"，构建起一张信息网络。爬虫可以配置成广度优先或深度优先的搜索策略，根据具体需求决定爬取路径。

爬虫的基本工作流程包括：

URL规划：确定爬取的起始页面和范围
网页下载：发送HTTP请求并获取网页内容
内容解析：从HTML中提取有价值的数据
数据存储：将提取的信息保存到数据库或文件
URL发现：从当前页面中发现新的链接并加入待爬取队列

1.2 爬虫的应用场景

网络爬虫在现代互联网生态中有广泛的应用：

搜索引擎索引：Google、百度等搜索引擎通过爬虫构建网页索引
数据分析与挖掘：市场研究、舆情分析、竞品监控
内容聚合：新闻聚合、商品比价、求职信息整合
学术研究：社会网络分析、互联网行为研究
测试与监控：网站可用性检测、内容变更监控

1.3 爬虫的法律与伦理边界

在开发和使用爬虫时，必须意识到其法律和伦理边界，以避免潜在的法律风险：

法律限制：

尊重网站的 robots.txt 协议，该文件指明了哪些内容允许爬取
遵守网站的服务条款和使用协议
避免采集个人隐私信息，尊重数据保护法规（如欧盟GDPR）
不得利用爬虫从事违法活动，如攻击网站安全

伦理注意事项：

控制爬取频率，避免对目标网站造成过大负担
标识您的爬虫（如设置明确的User-Agent）
考虑数据的版权问题，特别是商业使用时
遵循"最低必要"原则，只采集必要的数据

提示：开发爬虫前，建议先阅读目标网站的robots.txt文件（通常位于网站根目录，如https://example.com/robots.txt）和服务条款，确保您的爬虫行为合规。

二、Go语言爬虫开发优势

2.1 为什么选择Go开发爬虫？

Go语言凭借其独特的特性，成为开发爬虫程序的理想选择：

并发性能优秀：Go的goroutine和channel使并发爬取变得简单高效
内存占用低：相比Python等语言，Go的内存效率更高，适合大规模爬虫
静态类型：编译时类型检查减少运行时错误，提高程序稳定性
丰富的标准库：内置net/http等网络库，简化HTTP请求处理
交叉编译能力：可轻松构建不同平台的可执行文件，部署方便

2.2 Go爬虫生态概览

Go语言拥有丰富的爬虫相关库，各具特色：

库名称	主要特点	适用场景
Colly	高性能、易用API、事件驱动	通用网页爬虫，本系列主推
Goquery	类jQuery选择器，DOM解析	HTML内容提取，与Colly配合使用
Chromedp	无头浏览器控制，支持JS渲染	动态网页爬取，需JavaScript渲染
Soup	简洁API，快速上手	简单页面解析，原型开发
Gocrawl	可定制化程度高	复杂爬虫逻辑

本系列教程将主要使用Colly作为核心框架，配合其他库构建完整的爬虫系统。

三、Colly框架入门

3.1 Colly简介

Colly 是Go语言中最流行的爬虫框架之一，由Gergely Brautigam创建，具有以下特点：

高性能：可以在几分钟内爬取数百万个网页
简洁API：易于学习和使用的接口设计
事件驱动：基于回调函数的灵活控制
并发支持：内置并发爬取能力
灵活扩展：支持中间件和自定义设置

3.2 安装Colly

使用Go Modules安装Colly非常简单：

# 初始化模块(如果尚未初始化)
go mod init myspider

# 安装Colly
go get -u github.com/gocolly/colly/v2

如果您使用的是较旧的Go版本（<1.11），可以使用以下命令：

go get -u github.com/gocolly/colly

3.3 Colly核心架构

Colly基于事件驱动模型，主要组件包括：

Collector：爬虫的核心控制器，管理爬取过程
事件回调：如OnRequest、OnResponse、OnHTML等处理不同阶段的逻辑
Context：在不同回调间共享数据
Queue：管理待爬取的URL队列
Storage：存储已访问URL信息，防止重复爬取

Colly架构工作流程：

初始化：创建Collector实例，配置参数和回调函数
请求发起：调用Visit方法触发爬取，执行OnRequest回调
接收响应：获取HTTP响应后，执行OnResponse回调
内容解析：使用OnHTML/OnXML回调解析响应内容
数据处理：在回调中提取和处理数据
链接发现：分析页面中的链接，加入待爬取队列
完成通知：页面处理完成后，执行OnScraped回调

Collector对象通过事件分发机制，将不同阶段的处理逻辑解耦，使代码组织更清晰，扩展性更好。

四、第一个Colly爬虫程序

4.1 基本示例：Hello Crawler

让我们从一个简单的例子开始，了解Colly的基本用法：

package main

import (
	"fmt"
	"log"

	"github.com/gocolly/colly/v2"
)

func main() {
	// 创建一个新的收集器实例
	c := colly.NewCollector(
		// 设置用户代理，模拟浏览器
		colly.UserAgent("Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.110 Safari/537.36"),
	)

	// 在请求发送前的回调
	c.OnRequest(func(r *colly.Request) {
		fmt.Println("正在访问:", r.URL)
	})

	// 在收到响应后的回调
	c.OnResponse(func(r *colly.Response) {
		fmt.Println("访问完成:", r.Request.URL)
		fmt.Println("响应大小:", len(r.Body), "字节")
	})

	// 在发生错误时的回调
	c.OnError(func(r *colly.Response, err error) {
		log.Println("访问出错:", r.Request.URL, "错误信息:", err)
	})

	// 使用CSS选择器提取HTML元素
	c.OnHTML("title", func(e *colly.HTMLElement) {
		fmt.Println("页面标题:", e.Text)
	})

	// 开始爬取
	c.Visit("https://go-colly.org/")
}

运行此代码，您将看到Colly访问官网并提取页面标题的过程。这个简单的例子展示了Colly的核心工作流程。

4.2 实战案例：爬取新闻网站

接下来，让我们创建一个更实用的例子——爬取新闻网站的文章列表：

package main

import (
	"encoding/json"
	"fmt"
	"os"
	"time"

	"github.com/gocolly/colly/v2"
)

// 定义新闻文章结构
type NewsItem struct {
	Title     string    `json:"title"`
	Link      string    `json:"link"`
	Summary   string    `json:"summary,omitempty"`
	Category  string    `json:"category,omitempty"`
	Timestamp time.Time `json:"timestamp,omitempty"`
}

func main() {
	// 创建新闻条目切片
	var newsItems []NewsItem

	// 初始化收集器
	c := colly.NewCollector(
		colly.AllowedDomains("news.example.com"), // 替换为您要爬取的网站
		colly.MaxDepth(1),                        // 只爬取入口页面
	)

	// 定义新闻条目选择器和解析逻辑
	c.OnHTML("article.news-item", func(e *colly.HTMLElement) {
		// 创建新闻项
		item := NewsItem{
			Title:    e.ChildText("h2.title"),
			Link:     e.ChildAttr("a.read-more", "href"),
			Summary:  e.ChildText("p.summary"),
			Category: e.ChildText("span.category"),
		}

		// 解析时间（示例格式）
		dateStr := e.ChildText("time.published")
		if dateStr != "" {
			// 根据网站的日期格式调整解析方式
			parsedTime, err := time.Parse("2006-01-02 15:04", dateStr)
			if err == nil {
				item.Timestamp = parsedTime
			}
		}

		// 追加到结果集
		newsItems = append(newsItems, item)
		fmt.Printf("发现新闻: %s\n", item.Title)
	})

	// 请求事件处理
	c.OnRequest(func(r *colly.Request) {
		fmt.Println("正在访问:", r.URL)
	})

	// 错误处理
	c.OnError(func(r *colly.Response, err error) {
		fmt.Println("请求错误:", r.Request.URL, "错误:", err)
	})

	// 开始爬取 (替换为目标新闻网站)
	c.Visit("https://news.example.com/latest")

	// 将结果保存为JSON文件
	file, err := os.Create("news.json")
	if err != nil {
		fmt.Println("创建文件失败:", err)
		return
	}
	defer file.Close()

	encoder := json.NewEncoder(file)
	encoder.SetIndent("", "  ") // 美化输出
	if err := encoder.Encode(newsItems); err != nil {
		fmt.Println("编码JSON失败:", err)
		return
	}

	fmt.Printf("爬取完成，共获取 %d 条新闻，已保存到 news.json\n", len(newsItems))
}

注意：上述代码中的 news.example.com 是一个示例域名，实际使用时需替换为您要爬取的真实新闻网站。同时，CSS选择器需要根据目标网站的HTML结构进行调整。

五、Colly回调函数详解

Colly的强大之处在于其事件驱动的回调系统，让我们详细了解各个回调函数的用途：

5.1 关键回调函数

回调函数	触发时机	常见用途
`OnRequest`	发送HTTP请求前	设置请求头、打印日志、修改请求参数
`OnResponse`	收到HTTP响应后	处理原始响应数据、检查状态码
`OnHTML`	解析HTML元素时	提取网页中特定元素的内容
`OnXML`	解析XML元素时	处理XML格式的响应
`OnJSON`	解析JSON响应时	处理JSON格式的API响应
`OnError`	发生错误时	错误处理和记录
`OnScraped`	页面爬取完成后	清理工作、统计信息收集

5.2 回调函数使用示例

// 创建收集器
c := colly.NewCollector()

// 在请求前设置请求头
c.OnRequest(func(r *colly.Request) {
    r.Headers.Set("X-Requested-With", "XMLHttpRequest")
    fmt.Println("正在访问:", r.URL.String())
})

// 检查响应状态
c.OnResponse(func(r *colly.Response) {
    fmt.Printf("已访问: %s (状态码: %d)\n", r.Request.URL, r.StatusCode)
    // 可以在这里保存响应内容
    // r.Save("response.html")
})

// 解析HTML内容
c.OnHTML("div.content", func(e *colly.HTMLElement) {
    // e.DOM 是一个 goquery.Selection 对象
    fmt.Println("找到内容:", e.Text)
    
    // 遍历子元素
    e.ForEach("p", func(_ int, el *colly.HTMLElement) {
        fmt.Println("段落:", el.Text)
    })
    
    // 获取属性
    imgSrc := e.ChildAttr("img", "src")
    fmt.Println("图片链接:", imgSrc)
})

// 处理错误
c.OnError(func(r *colly.Response, err error) {
    fmt.Printf("请求 %s 失败: %s\n", r.Request.URL, err)
})

// 页面爬取完成后执行
c.OnScraped(func(r *colly.Response) {
    fmt.Println("爬取完成:", r.Request.URL)
})

5.3 选择器语法

Colly的OnHTML方法使用CSS选择器语法来定位元素，这与jQuery非常相似：

article - 选择所有<article>元素
div.content - 选择class为"content"的div元素
#main - 选择id为"main"的元素
a[href] - 选择有href属性的所有链接
ul > li - 选择ul的直接子元素li
h1 + p - 选择紧跟在h1后面的p元素

六、爬虫限速与并发控制

6.1 为什么需要限速？

爬虫限速是一种负责任的爬取实践，有以下几个重要原因：

尊重服务器资源：避免对目标网站造成过大负载
规避反爬机制：过快的请求可能触发网站的反爬措施
遵守robots.txt：许多网站在robots.txt中规定了爬取频率
确保稳定性：控制请求速率可以提高爬虫的稳定性

6.2 Colly限速配置

Colly提供了简单的限速控制机制：

c := colly.NewCollector()

// 配置限速规则
c.Limit(&colly.LimitRule{
    // 匹配的域名
    DomainGlob: "*",
    // 并行请求数
    Parallelism: 2,
    // 请求间隔
    Delay: 5 * time.Second,
    // 随机化延迟，在设定值的50%-150%之间随机
    RandomDelay: 2 * time.Second,
})

// 对特定域名设置不同的规则
c.Limit(&colly.LimitRule{
    DomainGlob: "*.example.com",
    Parallelism: 1,
    Delay: 2 * time.Second,
})

6.3 并发爬取

对于大规模爬取，Colly支持异步并发模式：

c := colly.NewCollector(
    // 启用异步模式
    colly.Async(true),
)

// 设置并发限制
c.Limit(&colly.LimitRule{
    DomainGlob:  "*",
    Parallelism: 4, // 同时爬取4个页面
    Delay:       1 * time.Second,
})

// 添加多个URL
for i := 1; i <= 10; i++ {
    c.Visit(fmt.Sprintf("https://example.com/page/%d", i))
}

// 等待所有爬取任务完成
c.Wait()

提示：设置并发数时，需要平衡速度与资源消耗。过高的并发可能导致内存占用过大，甚至被目标网站封禁IP。

七、完整实例：新闻聚合爬虫

让我们结合前面学到的知识，开发一个更完整的新闻聚合爬虫，包含错误处理、限速和数据存储：

package main

import (
	"encoding/csv"
	"fmt"
	"os"
	"strings"
	"time"

	"github.com/gocolly/colly/v2"
)

// 新闻数据结构
type NewsArticle struct {
	Title     string
	URL       string
	Source    string
	Category  string
	PublishAt string
	Summary   string
}

func main() {
	// 创建CSV文件保存结果
	file, err := os.Create("news_data.csv")
	if err != nil {
		fmt.Println("创建CSV文件失败:", err)
		return
	}
	defer file.Close()

	// 设置CSV写入器
	writer := csv.NewWriter(file)
	defer writer.Flush()

	// 写入CSV表头
	writer.Write([]string{"标题", "链接", "来源", "分类", "发布时间", "摘要"})

	// 创建收集器
	c := colly.NewCollector(
		colly.UserAgent("Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.110 Safari/537.36"),
		colly.MaxDepth(2),
	)

	// 设置限速
	c.Limit(&colly.LimitRule{
		DomainGlob:  "*",
		Parallelism: 2,
		Delay:       1 * time.Second,
		RandomDelay: 500 * time.Millisecond,
	})

	// 在HTML中查找新闻条目
	c.OnHTML("article.news-item", func(e *colly.HTMLElement) {
		article := NewsArticle{
			Title:     strings.TrimSpace(e.ChildText("h3.news-title")),
			URL:       e.ChildAttr("a.news-link", "href"),
			Source:    strings.TrimSpace(e.ChildText("span.source")),
			Category:  strings.TrimSpace(e.ChildText("span.category")),
			PublishAt: strings.TrimSpace(e.ChildText("time.publish-date")),
			Summary:   strings.TrimSpace(e.ChildText("p.summary")),
		}

		// 处理相对URL
		if !strings.HasPrefix(article.URL, "http") && article.URL != "" {
			article.URL = e.Request.AbsoluteURL(article.URL)
		}

		// 检查是否爬取到有效内容
		if article.Title != "" {
			fmt.Printf("发现新闻: %s\n", article.Title)
			// 保存到CSV
			writer.Write([]string{
				article.Title,
				article.URL,
				article.Source,
				article.Category,
				article.PublishAt,
				article.Summary,
			})
		}

		// 查找"阅读更多"链接，进入详情页
		detailURL := e.ChildAttr("a.read-more", "href")
		if detailURL != "" {
			detailURL = e.Request.AbsoluteURL(detailURL)
			c.Visit(detailURL)
		}
	})

	// 在详情页查找更多内容
	c.OnHTML("div.article-detail", func(e *colly.HTMLElement) {
		fmt.Println("访问详情页:", e.Request.URL)
		// 这里可以提取文章详细内容
	})

	// 查找分页链接
	c.OnHTML("a.pagination__next", func(e *colly.HTMLElement) {
		nextPage := e.Attr("href")
		if nextPage != "" {
			fmt.Println("发现下一页:", nextPage)
			c.Visit(e.Request.AbsoluteURL(nextPage))
		}
	})

	// 请求前处理
	c.OnRequest(func(r *colly.Request) {
		fmt.Println("正在访问:", r.URL.String())
	})

	// 响应处理
	c.OnResponse(func(r *colly.Response) {
		fmt.Printf("收到响应: %s (状态码: %d)\n", r.Request.URL, r.StatusCode)
	})

	// 错误处理
	c.OnError(func(r *colly.Response, err error) {
		fmt.Printf("请求失败 %s: %v\n", r.Request.URL, err)
		// 如果是服务器错误，可以尝试重试
		if r.StatusCode >= 500 && r.StatusCode < 600 {
			fmt.Println("服务器错误，将在稍后重试...")
			retryURL := r.Request.URL.String()
			time.Sleep(5 * time.Second)
			c.Visit(retryURL)
		}
	})

	// 开始爬取，记得替换为实际要爬取的新闻网站
	c.Visit("https://news.example.com")

	fmt.Println("爬取完成，结果已保存到 news_data.csv")
}