goLang爬取html

最新推荐文章于 2024-04-28 19:09:19 发布

穿秋裤的兔子-

最新推荐文章于 2024-04-28 19:09:19 发布

阅读量1k

点赞数

分类专栏： goLang

本文链接：https://blog.youkuaiyun.com/kansas_lh/article/details/104505290

版权

本文介绍了使用Go语言进行网页抓取和解析的基本步骤，包括HTTP请求、HTML解析及数据提取。通过实例展示了如何利用Go的net/http包发送GET请求获取网页源码，并使用html包解析HTML结构，提取关键信息，帮助开发者入门网络爬虫开发。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

package main

import (
	"fmt"
	"net/http"
	"os"
	"strconv"
)
//爬取网页内容
func HttpGet(url string)(result string ,err error){
	resp , err1 :=http.Get(url)
	if err1 !=nil{
		err = err1
		return
	}
	defer resp.Body.Close()

	//读取网页body内容
	buf := make([]byte, 1024*4 )
	for{
		n, err := resp.Body.Read(buf)
		//读取结束，或者出问题
		if n == 0 {
			fmt.Println("resp.Body.Read err = ",err)
			break
		}
		result += string(buf[:n])

	}
	return

}
func DoWork(start,end int){
	fmt.Printf("正在爬取 %d 到 %d 的页面",start,end)
	//每一页+50 https://tieba.baidu.com/f?kw=%E7%BB%9D%E5%9C%B0%E6%B1%82%E7%94%9F&ie=utf-8&pn=50
	for i:=start;i<=end;i++{
		url := "https://tieba.baidu.com/f?kw=%E7%BB%9D%E5%9C%B0%E6%B1%82%E7%94%9F&ie=utf-8&pn="+strconv.Itoa((i-1)*50)
		fmt.Println("url = ",url)
		result, err := HttpGet(url)
		if err !&#

最低0.47元/天解锁文章