GO语言基础教程（254）Go语言在爬虫中的应用之抓取指定连接的网页内容：当爬虫遇见Go：用最潮的编程语言，抓最野的数据！-优快云博客

嘿，程序员朋友们！今天咱们来聊聊怎么用Go语言这个「代码界吴彦祖」写爬虫。别以为爬虫只是Python的专利，Go语言干这活儿就像让博尔特去跑小区马拉松——大材小用但特别爽！

还记得我第一次写爬虫的时候吗？用Python写了50行代码，配置了半天的环境，结果网站稍微改个结构就崩了。现在用Go语言？30行代码搞定，速度快到让你怀疑人生，并发处理简单得像在朋友圈点赞。最关键的是，编译成单个可执行文件，随便扔哪台服务器都能跑，这种爽感谁用谁知道！

为什么是Go语言？爬虫界的「瑞士军刀」

先说个冷知识：Google设计的Go语言，最初就是为了解决大规模网络并发问题而生的。这不正好撞到爬虫的枪口上了吗？

Go语言干爬虫的三大绝活：

并发能力堪比蚂蚁军团 - goroutine轻量到让你可以同时启动成千上万个爬虫任务，channel让数据传递变得像微信聊天一样简单
执行速度直追C语言 - 编译型语言的尊严在此，同样的爬虫任务，Go语言的速度能比Python快3-5倍
部署简单到犯规 - 不需要安装运行时环境，编译完就是个绿色软件，随拷随走

举个真实案例：我有个朋友用Python写了个图片爬虫，爬一个图库网站，500张图片花了2分钟。改用Go语言重写后，同样的任务23秒搞定。这不是玄学，这是Go语言并发模型的实力！

手把手教学：从零开始抓取网页

好了，理论吹得再响不如代码一行。现在咱们就来写个实实在在的爬虫，目标是把豆瓣电影TOP250的第一页给「借」来看看。

环境准备阶段：

# 如果你还没安装Go，先去官网下个安装包，比安装QQ还简单
go version  # 看到版本号就说明安装成功

代码实战环节：

创建一个叫crawler.go的文件，然后跟我一起敲代码：

package main

import (
    "fmt"
    "io/ioutil"
    "net/http"
    "time"
)

func main() {
    // 目标网址 - 豆瓣电影TOP250
    url := "https://movie.douban.com/top250"
    
    // 创建HTTP客户端，设置超时时间（别当网络乞丐）
    client := &http.Client{
        Timeout: 10 * time.Second,
    }
    
    // 构建请求，加上Header伪装成浏览器
    request, err := http.NewRequest("GET", url, nil)
    if err != nil {
        fmt.Printf("创建请求失败: %v\n", err)
        return
    }
    
    // 设置请求头 - 这是爬虫的「隐身衣」
    request.Header.Set("User-Agent", "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36")
    
    // 正式发送请求
    response, err := client.Do(request)
    if err != nil {
        fmt.Printf("请求失败: %v\n", err)
        return
    }
    defer response.Body.Close() // 记得关闭身体，做个有礼貌的程序员
    
    // 读取响应内容
    body, err := ioutil.ReadAll(response.Body)
    if err != nil {
        fmt.Printf("读取内容失败: %v\n", err)
        return
    }
    
    // 把内容写入文件，方便查看
    err = ioutil.WriteFile("douban_page.html", body, 0644)
    if err != nil {
        fmt.Printf("写入文件失败: %v\n", err)
        return
    }
    
    fmt.Println("抓取成功！内容已保存到 douban_page.html")
    fmt.Printf("抓取了 %d 字节的数据\n", len(body))
}

运行这个程序，你会在同级目录下得到一个douban_page.html文件，用浏览器打开它——惊喜不惊喜？熟悉的豆瓣界面就在眼前！

代码逐行解析：

看到这里你可能想问：「这代码我都看懂了，所以到底厉害在哪？」别急，让我给你划重点：

http.Client{Timeout: 10 * time.Second}：设置超时很重要，否则你的程序可能会变成「永远的等待」
defer response.Body.Close()：defer是Go语言的宝藏关键字，确保资源一定会被释放，再也不会因为忘记关闭连接导致内存泄漏
User-Agent设置：这是爬虫的「社交礼仪」，告诉服务器「我是正经浏览器，不是机器人」。没有这个，分分钟被网站封IP

进阶玩法：让爬虫学会「分身术」

如果只能抓一个页面，那算什么本事？Go语言的精华在于并发！接下来我要展示的，是让Python程序员流口水的功能——同时抓取多个页面。

func concurrentCrawl() {
    urls := []string{
        "https://movie.douban.com/top250?start=0",
        "https://movie.douban.com/top250?start=25", 
        "https://movie.douban.com/top250?start=50",
    }
    
    // 使用channel来收集结果
    resultChan := make(chan string, len(urls))
    
    for _, url := range urls {
        // 为每个URL启动一个goroutine
        go func(u string) {
            body, err := fetchPage(u)
            if err != nil {
                resultChan <- fmt.Sprintf("失败: %s", u)
            } else {
                resultChan <- fmt.Sprintf("成功: %s (长度:%d)", u, len(body))
            }
        }(url)
    }
    
    // 收集所有结果
    for i := 0; i < len(urls); i++ {
        fmt.Println(<-resultChan)
    }
}

func fetchPage(url string) ([]byte, error) {
    client := &http.Client{Timeout: 10 * time.Second}
    req, _ := http.NewRequest("GET", url, nil)
    req.Header.Set("User-Agent", "Mozilla/5.0...")
    
    resp, err := client.Do(req)
    if err != nil {
        return nil, err
    }
    defer resp.Body.Close()
    
    return ioutil.ReadAll(resp.Body)
}

这个并发版本的精髓在于：

用了goroutine，每个页面抓取都是独立执行
通过channel安全地收集结果，避免竞态条件
整体耗时约等于最慢的那个页面抓取时间，而不是所有页面时间总和

实战中的坑与解决方案

写爬虫就像谈恋爱，不可能一帆风顺。以下是你们肯定会遇到的几个坑：

坑1：网站反爬虫
解决方案：

// 1. 随机延时，别爬得太快
time.Sleep(time.Duration(rand.Intn(3)) * time.Second)

// 2. 使用代理IP
proxyURL, _ := url.Parse("http://proxy-ip:port")
client := &http.Client{
    Transport: &http.Transport{Proxy: http.ProxyURL(proxyURL)},
}

坑2：内存泄漏
记住一定要关闭response body：

response, err := client.Do(request)
if err != nil {
    return err
}
defer response.Body.Close() // 这行绝对不能少！

坑3：编码问题
遇到中文乱码怎么办？

// 使用官方golang.org/x/text包转换编码
import "golang.org/x/text/encoding/simplifiedchinese"

// 将GBK转UTF-8
decoder := simplifiedchinese.GBK.NewDecoder()
utf8Body, _ := decoder.Bytes(gbkBody)