【Go语言爬虫系列02】HTML解析与Goquery技术详解

本文链接：https://blog.youkuaiyun.com/GopherTribe/article/details/146501654

📚 原创系列： “Go语言爬虫系列”

🔄 转载说明： 本文最初发布于"Gopher部落"微信公众号，经原作者授权转载。

🔗 关注原创： 欢迎扫描文末二维码，关注"Gopher部落"微信公众号获取第一手Go技术文章。

📑 Go语言爬虫系列导航

本文是【Go语言爬虫系列】的第2篇，点击下方链接查看更多文章

🚀 Go爬虫系列：共12篇

爬虫入门与Colly框架基础
HTML解析与Goquery技术详解👈 当前位置
Colly高级特性与并发控制
爬虫架构设计与实现（即将发布）
反爬虫策略应对技术（即将发布）
模拟登录与会话维持（即将发布）
动态网页爬取技术（即将发布）
分布式爬虫设计与实现（即将发布）
数据存储与处理（即将发布）
爬虫性能优化技术（即将发布）
爬虫安全与合规性（即将发布）
综合项目实战：新闻聚合系统（即将发布）

📖 文章导读

在上一篇文章中，我们学习了爬虫的基本概念和Colly框架的基础用法。本文作为系列的第二篇，将深入HTML解析领域，重点介绍：

HTML文档结构与DOM树的基本概念
Goquery库的安装与核心功能
CSS选择器语法与高级用法
DOM元素遍历与精准选择技术
结构化数据提取与表格处理实战

掌握这些技术后，您将能够从任何HTML页面中精确提取所需的数据，无论它的结构多么复杂。

一、HTML文档结构与DOM基础

1.1 理解HTML与DOM

在深入学习HTML解析技术前，我们需要先理解HTML文档的结构和DOM(文档对象模型)的概念：

**HTML(超文本标记语言)**是网页的标准结构化语言，由一系列元素(elements)组成，这些元素通过标签(tags)来定义。例如:

<!DOCTYPE html>
<html>
<head>
  <title>页面标题</title>
</head>
<body>
  <div id="main">
    <h1 class="title">标题文本</h1>
    <p>段落内容</p>
    <ul>
      <li>列表项1</li>
      <li>列表项2</li>
    </ul>
  </div>
</body>
</html>

**DOM(Document Object Model，文档对象模型)**是HTML文档的编程接口，它将HTML文档表示为树状结构，其中每个节点都是文档的一部分(如元素、属性或文本)。这种树状结构使我们能够通过编程方式访问和操作HTML元素。

DOM树结构示例:

上面的HTML代码在DOM中的表示形式是一棵树，html元素是根节点，head和body是其子节点，依此类推。每个元素可以有属性(如id、class)、内容和子元素。

1.2 HTML解析的挑战

在爬虫开发中，HTML解析面临以下常见挑战：

结构多变性：不同网站的HTML结构差异很大，甚至同一网站的不同页面也可能有不同结构
非标准HTML：实际网页中常见格式错误或不规范的HTML代码
动态内容：通过JavaScript生成的内容在源代码中不可见
大量冗余信息：网页中包含大量与目标数据无关的内容
结构变化：网站更新可能导致HTML结构改变，使原有解析逻辑失效

为了应对这些挑战，我们需要强大而灵活的HTML解析工具。在Go语言中，Goquery库提供了理想的解决方案。

二、Goquery库入门

2.1 Goquery简介

Goquery是Go语言中最流行的HTML解析库，由Martin Angers创建，深受jQuery启发。它提供了类似jQuery的语法和API，使HTML元素选择和操作变得简单直观。

Goquery的主要特点：

熟悉的语法：对熟悉jQuery的开发者友好
强大的选择器：支持几乎所有CSS选择器
链式操作：支持函数链式调用
DOM遍历：提供丰富的DOM导航方法
高性能：基于高效的net/html标准库

2.2 安装Goquery

使用Go Modules安装Goquery：

# 初始化模块(如果尚未初始化)
go mod init myproject

# 安装Goquery
go get github.com/PuerkitoBio/goquery

2.3 基本用法示例

下面是一个简单的Goquery使用示例：

package main

import (
	"fmt"
	"log"
	"net/http"
	"strings"

	"github.com/PuerkitoBio/goquery"
)

func main() {
	// 发起HTTP请求获取网页内容
	res, err := http.Get("https://news.example.com")
	if err != nil {
		log.Fatal(err)
	}
	defer res.Body.Close()
	if res.StatusCode != 200 {
		log.Fatalf("状态码错误: %d %s", res.StatusCode, res.Status)
	}

	// 加载HTML文档
	doc, err := goquery.NewDocumentFromReader(res.Body)
	if err != nil {
		log.Fatal(err)
	}

	// 使用CSS选择器查找元素
	doc.Find("article .title").Each(func(i int, s *goquery.Selection) {
		// 获取文本内容
		title := s.Text()
		// 去除多余空白
		title = strings.TrimSpace(title)
		fmt.Printf("文章标题 %d: %s\n", i+1, title)

		// 获取链接地址
		href, exists := s.Parent().Attr("href")
		if exists {
			fmt.Printf("链接地址: %s\n", href)
		}
	})
}

这个例子展示了Goquery的基本工作流程：

获取HTML内容
创建Goquery文档对象
使用选择器查找元素
处理选中的元素(获取文本、属性等)

2.4 与Colly框架集成

如果您正在使用Colly框架(如上一篇文章所介绍的)，可以很容易地集成Goquery：

c := colly.NewCollector()

c.OnHTML("article", func(e *colly.HTMLElement) {
	// e.DOM是一个goquery.Selection对象
	e.DOM.Find(".title").Each(func(i int, s *goquery.Selection) {
		title := s.Text()
		fmt.Printf("文章标题: %s\n", title)
	})
})

c.Visit("https://example.com")

在Colly中，HTMLElement结构体包含一个DOM字段，它是一个goquery.Selection对象，提供了对当前元素的所有Goquery功能的访问。

三、CSS选择器详解

3.1 基本选择器

CSS选择器是从HTML文档中选择元素的模式。Goquery支持大多数CSS3选择器。以下是最常用的基本选择器：

选择器	示例	描述
元素选择器	`p`	选择所有`<p>`元素
ID选择器	`#main`	选择id为"main"的元素
类选择器	`.title`	选择所有class包含"title"的元素
组合选择器	`div, p`	选择所有`<div>`元素和所有`<p>`元素
后代选择器	`div p`	选择`<div>`内的所有`<p>`元素
子元素选择器	`div > p`	选择`<div>`的直接子元素`<p>`
相邻兄弟选择器	`h1 + p`	选择紧跟在`<h1>`后的`<p>`元素
一般兄弟选择器	`h1 ~ p`	选择`<h1>`后的所有同级`<p>`元素

3.2 属性选择器

属性选择器允许根据元素的属性来选择元素：

选择器	示例	描述
`[attr]`	`[href]`	选择有href属性的元素
`[attr=value]`	`[type="text"]`	选择type="text"的元素
`[attr^=value]`	`[href^="https"]`	选择href以"https"开头的元素
`[attr$=value]`	`[href$=".pdf"]`	选择href以".pdf"结尾的元素
`[attr*=value]`	`[href*="example"]`	选择href包含"example"的元素

3.3 伪类选择器

Goquery支持部分CSS3伪类选择器：

选择器	示例	描述
`:first-child`	`li:first-child`	选择作为第一个子元素的每个`<li>`元素
`:last-child`	`li:last-child`	选择作为最后一个子元素的每个`<li>`元素
`:nth-child(n)`	`tr:nth-child(2n)`	选择作为第2n个子元素的每个`<tr>`元素(偶数行)
`:empty`	`div:empty`	选择没有子元素的`<div>`元素
`:not(selector)`	`div:not(.ignore)`	选择不包含class="ignore"的所有`<div>`元素

3.4 选择器组合与优先级

复杂的选择需求通常需要组合多种选择器：

// 选择具有特定class的div中的第一个段落
doc.Find("div.content > p:first-child").Each(func(i int, s *goquery.Selection) {
    fmt.Println(s.Text())
})

// 选择具有data-type属性的列表项中的链接
doc.Find("li[data-type] > a[href^='https']").Each(func(i int, s *goquery.Selection) {
    href, _ := s.Attr("href")
    fmt.Println(href)
})

选择器优先级技巧：

使用更具体的选择器能提高稳定性，但可能降低适应性
组合多个属性选择器可以提高精确度
使用:not()伪类可以排除干扰元素

四、DOM操作与遍历

4.1 核心DOM操作方法

Goquery提供了丰富的方法来操作和遍历DOM：

获取内容方法

// 获取匹配元素的HTML内容
html, _ := selection.Html()

// 获取匹配元素的文本内容
text := selection.Text()

// 获取属性值
attr, exists := selection.Attr("href")

// 判断是否包含特定class
hasClass := selection.HasClass("active")

筛选方法

// 查找子元素
children := selection.Find("span")

// 筛选当前选择结果
filtered := selection.Filter(".important")

// 排除元素
excluded := selection.Not(".ignore")

// 选择第N个元素
first := selection.First() // 第一个
last := selection.Last()   // 最后一个
eq3 := selection.Eq(3)     // 第四个元素

遍历方法

// 获取父元素
parent := selection.Parent()

// 获取所有父元素
parents := selection.Parents()

// 获取下一个同级元素
next := selection.Next()

// 获取之前的同级元素
prev := selection.Prev()

// 获取所有同级元素
siblings := selection.Siblings()

4.2 链式操作

Goquery的方法通常返回一个新的Selection对象，允许链式调用：

// 查找article元素中的h2，然后获取其下一个p元素
doc.Find("article").Find("h2").Next("p").Each(func(i int, s *goquery.Selection) {
    fmt.Println(s.Text())
})

// 查找表格的第一行中不包含"header"类的所有单元格
doc.Find("table tr:first-child").Children().Not(".header").Each(func(i int, s *goquery.Selection) {
    fmt.Println(s.Text())
})

链式操作使代码更简洁、更易读，特别是在处理复杂的HTML结构时。

4.3 Each方法与迭代

Each()方法是Goquery最常用的方法之一，它允许迭代处理每个匹配的元素：

doc.Find("ul.list li").Each(func(i int, s *goquery.Selection) {
    // i是索引，从0开始
    // s是当前元素的Selection对象
    
    fmt.Printf("列表项 %d: %s\n", i+1, s.Text())
    
    // 可以继续在当前元素上使用Selection方法
    s.Find("a").Each(func(j int, link *goquery.Selection) {
        href, _ := link.Attr("href")
        fmt.Printf("  链接 %d: %s\n", j+1, href)
    })
})

Each()方法内部的回调函数可以访问外部变量，这使得收集和处理数据变得非常灵活：

var articles []Article
doc.Find("article").Each(func(i int, s *goquery.Selection) {
    article := Article{
        Title: s.Find("h2").Text(),
        Content: s.Find(".content").Text(),
        URL: s.Find("a.readmore").AttrOr("href", ""),
        Date: s.Find(".date").Text(),
    }
    articles = append(articles, article)
})

五、实战案例：数据提取与处理

5.1 提取新闻列表

下面是一个从新闻网站提取文章列表的完整示例：

package main

import (
	"fmt"
	"log"
	"net/http"
	"strings"
	"time"

	"github.com/PuerkitoBio/goquery"
)

type NewsArticle struct {
	Title     string
	Summary   string
	URL       string
	Author    string
	Published time.Time
	Category  string
}

func main() {
	// 定义目标URL
	url := "https://news-site.example/latest"
	
	// 发送HTTP请求
	res, err := http.Get(url)
	if err != nil {
		log.Fatal(err)
	}
	defer res.Body.Close()
	
	if res.StatusCode != 200 {
		log.Fatalf("请求失败: %d %s", res.StatusCode, res.Status)
	}
	
	// 解析HTML
	doc, err := goquery.NewDocumentFromReader(res.Body)
	if err != nil {
		log.Fatal(err)
	}
	
	var articles []NewsArticle
	
	// 假设每篇文章都在.article-item容器中
	doc.Find(".article-item").Each(func(i int, s *goquery.Selection) {
		article := NewsArticle{}
		
		// 提取标题
		article.Title = strings.TrimSpace(s.Find("h2.title").Text())
		
		// 提取摘要
		article.Summary = strings.TrimSpace(s.Find("p.summary").Text())
		
		// 提取URL
		article.URL, _ = s.Find("a.read-more").Attr("href")
		
		// 确保URL是绝对路径
		if !strings.HasPrefix(article.URL, "http") {
			article.URL = "https://news-site.example" + article.URL
		}
		
		// 提取作者
		article.Author = strings.TrimSpace(s.Find(".author").Text())
		
		// 提取分类
		article.Category = strings.TrimSpace(s.Find(".category").Text())
		
		// 提取并解析日期
		dateStr := strings.TrimSpace(s.Find(".date").Text())
		if dateStr != "" {
			// 根据网站的实际日期格式调整
			t, err := time.Parse("2006-01-02", dateStr)
			if err == nil {
				article.Published = t
			}
		}
		
		articles = append(articles, article)
		fmt.Printf("找到文章: %s\n", article.Title)
	})
	
	fmt.Printf("共提取 %d 篇文章\n", len(articles))
	
	// 这里可以进一步处理提取到的数据
	// 例如: 保存到数据库、导出CSV、进一步分析等
}

5.2 解析表格数据

表格是网页中常见的数据展示形式，以下是提取和解析HTML表格的示例：

package main

import (
	"encoding/csv"
	"fmt"
	"log"
	"os"
	"strings"

	"github.com/PuerkitoBio/goquery"
)

func main() {
	// 假设我们有一个包含HTML表格的文件
	file, err := os.Open("table.html")
	if err != nil {
		log.Fatal(err)
	}
	defer file.Close()

	// 解析HTML
	doc, err := goquery.NewDocumentFromReader(file)
	if err != nil {
		log.Fatal(err)
	}

	// 创建CSV文件保存结果
	csvFile, err := os.Create("table_data.csv")
	if err != nil {
		log.Fatal(err)
	}
	defer csvFile.Close()

	writer := csv.NewWriter(csvFile)
	defer writer.Flush()

	// 找到表格并处理
	doc.Find("table").Each(func(tableIndex int, tableSelection *goquery.Selection) {
		fmt.Printf("处理表格 #%d\n", tableIndex+1)

		// 提取表头
		var headers []string
		tableSelection.Find("thead tr th").Each(func(i int, s *goquery.Selection) {
			headers = append(headers, strings.TrimSpace(s.Text()))
		})

		// 如果没有明确的表头，尝试使用第一行
		if len(headers) == 0 {
			tableSelection.Find("tr").First().Find("th, td").Each(func(i int, s *goquery.Selection) {
				headers = append(headers, strings.TrimSpace(s.Text()))
			})
		}

		// 写入表头
		if len(headers) > 0 {
			writer.Write(headers)
		}

		// 定位表体，如果有明确的tbody则使用，否则直接处理所有行
		var rowSelection *goquery.Selection
		if tbody := tableSelection.Find("tbody"); tbody.Length() > 0 {
			rowSelection = tbody.Find("tr")
		} else {
			// 如果使用第一行作为表头，则跳过第一行
			if len(headers) > 0 {
				rowSelection = tableSelection.Find("tr").Slice(1, tableSelection.Find("tr").Length())
			} else {
				rowSelection = tableSelection.Find("tr")
			}
		}

		// 处理每一行
		rowSelection.Each(func(rowIndex int, rowSelection *goquery.Selection) {
			var row []string

			// 提取每个单元格的数据
			rowSelection.Find("td").Each(func(cellIndex int, cellSelection *goquery.Selection) {
				// 清理文本（移除多余空白）
				cellText := strings.TrimSpace(cellSelection.Text())
				row = append(row, cellText)
			})

			// 写入CSV
			if len(row) > 0 {
				writer.Write(row)
			}
		})
	})

	fmt.Println("表格数据已保存至 table_data.csv")
}

这个例子展示了如何处理HTML表格的复杂性，包括：

处理有或没有明确表头的表格
考虑是否有tbody元素
规范化单元格数据
将提取的数据保存为CSV格式

5.3 处理复杂嵌套结构

现实世界中的HTML通常包含复杂的嵌套结构。以下是处理复杂结构的示例：

package main

import (
	"encoding/json"
	"fmt"
	"log"
	"net/http"
	"os"
	"strings"

	"github.com/PuerkitoBio/goquery"
)

// 产品结构
type Product struct {
	Name        string   `json:"name"`
	Price       string   `json:"price"`
	Description string   `json:"description"`
	Features    []string `json:"features"`
	Specs       map[string]string `json:"specifications"`
	Images      []string `json:"images"`
	Reviews     []Review `json:"reviews,omitempty"`
}

// 评论结构
type Review struct {
	Author  string `json:"author"`
	Rating  string `json:"rating"`
	Date    string `json:"date"`
	Comment string `json:"comment"`
}

func main() {
	// 假设我们要抓取一个产品页面
	res, err := http.Get("https://example-shop.com/product/123")
	if err != nil {
		log.Fatal(err)
	}
	defer res.Body.Close()
	
	if res.StatusCode != 200 {
		log.Fatalf("请求失败: %d %s", res.StatusCode, res.Status)
	}
	
	// 解析HTML
	doc, err := goquery.NewDocumentFromReader(res.Body)
	if err != nil {
		log.Fatal(err)
	}
	
	// 创建产品对象
	product := Product{
		Specs: make(map[string]string),
	}
	
	// 提取基本信息
	product.Name = strings.TrimSpace(doc.Find("h1.product-title").Text())
	product.Price = strings.TrimSpace(doc.Find(".price").Text())
	product.Description = strings.TrimSpace(doc.Find(".product-description").Text())
	
	// 提取产品特点列表
	doc.Find(".features-list li").Each(func(i int, s *goquery.Selection) {
		feature := strings.TrimSpace(s.Text())
		product.Features = append(product.Features, feature)
	})
	
	// 提取规格表
	doc.Find(".specifications tr").Each(func(i int, s *goquery.Selection) {
		key := strings.TrimSpace(s.Find("th").Text())
		value := strings.TrimSpace(s.Find("td").Text())
		if key != "" && value != "" {
			product.Specs[key] = value
		}
	})
	
	// 提取产品图片
	doc.Find(".product-gallery img").Each(func(i int, s *goquery.Selection) {
		if src, exists := s.Attr("src"); exists {
			product.Images = append(product.Images, src)
		}
	})
	
	// 提取评论
	doc.Find(".review-item").Each(func(i int, s *goquery.Selection) {
		review := Review{
			Author: strings.TrimSpace(s.Find(".review-author").Text()),
			Rating: strings.TrimSpace(s.Find(".review-rating").Text()),
			Date: strings.TrimSpace(s.Find(".review-date").Text()),
			Comment: strings.TrimSpace(s.Find(".review-text").Text()),
		}
		product.Reviews = append(product.Reviews, review)
	})
	
	// 输出JSON格式的产品信息
	jsonData, err := json.MarshalIndent(product, "", "  ")
	if err != nil {
		log.Fatal(err)
	}
	
	// 保存到文件
	err = os.WriteFile("product.json", jsonData, 0644)
	if err != nil {
		log.Fatal(err)
	}
	
	fmt.Println("产品信息已保存至 product.json")
}

这个例子展示了：

如何处理包含多层次数据的复杂HTML
如何创建结构化数据模型
如何处理不同类型的数据(文本、列表、表格、嵌套对象)

5.4 处理分页内容

许多网站使用分页来展示大量内容，以下是处理分页的示例：

package main

import (
	"fmt"
	"log"
	"net/http"
	"strconv"
	"strings"

	"github.com/PuerkitoBio/goquery"
)

func main() {
	baseURL := "https://example.com/list?page="
	maxPages := 5 // 限制爬取的最大页数
	
	var allItems []string
	
	for page := 1; page <= maxPages; page++ {
		pageURL := baseURL + strconv.Itoa(page)
		fmt.Printf("正在爬取第 %d 页: %s\n", page, pageURL)
		
		// 获取页面内容
		res, err := http.Get(pageURL)
		if err != nil {
			log.Printf("请求页面 %d 失败: %v", page, err)
			continue
		}
		
		if res.StatusCode != 200 {
			log.Printf("页面 %d 状态码错误: %d", page, res.StatusCode)
			res.Body.Close()
			continue
		}
		
		// 解析HTML
		doc, err := goquery.NewDocumentFromReader(res.Body)
		res.Body.Close()
		if err != nil {
			log.Printf("解析页面 %d 失败: %v", page, err)
			continue
		}
		
		// 提取当前页的项目
		itemCount := 0
		doc.Find(".item").Each(func(i int, s *goquery.Selection) {
			itemText := strings.TrimSpace(s.Text())
			allItems = append(allItems, itemText)
			itemCount++
		})
		
		fmt.Printf("第 %d 页找到 %d 个项目\n", page, itemCount)
		
		// 检查是否有下一页
		hasNextPage := false
		doc.Find(".pagination a").Each(func(i int, s *goquery.Selection) {
			if strings.Contains(strings.ToLower(s.Text()), "next") || 
			   strings.Contains(s.Text(), "下一页") {
				hasNextPage = true
			}
		})
		
		// 如果没有下一页，提前结束循环
		if !hasNextPage && page < maxPages {
			fmt.Println("已到达最后一页，结束爬取")
			break
		}
		
		// 简单的延迟，避免请求过于频繁
		// time.Sleep(1 * time.Second)
	}
	
	fmt.Printf("共爬取 %d 个项目\n", len(allItems))
	
	// 这里可以进一步处理收集到的所有项目
}