golang 简单爬虫,245行代码爬取豆瓣电影电视剧等信息并保存到excel

这是一个使用Golang编写的简单爬虫程序,它爬取豆瓣电影和电视剧信息,根据指定的评分、分页和类型,将数据解析并存储到Excel文件中。程序使用了goquery库来解析HTML,xlsx库来操作Excel,通过HTTP请求获取网页内容,并且在爬取过程中加入了延时策略以避免被封禁。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

package main

import (
	"encoding/json"
	"flag"
	"fmt"
	"github.com/PuerkitoBio/goquery"
	"github.com/golang/glog"
	"github.com/tealeg/xlsx"
	"io/ioutil"
	"math/rand"
	"net/http"
	"strings"
	"time"
)

type movie struct {
	Directors []string `json:"directors"`
	Rate      string   `json:"rate"`
	Rover_x   int      `json:"cover_x"`
	Star      string   `json:"star"`
	Title     string   `json:"title"`
	Url       string   `json:"url"`
	Casts     []string `json:"casts"`
	Cover     string   `json:"cover"`
	Id        string   `json:"id"`
	Cover_y   int      `json:"cover_y"`
}

type data struct {
	Data []movie `json:"data"`
}

var (
	file *xlsx.File
	//爬到的影片总数
	number   int
	filePath string = "C:\\Users\\Administrator\\Desktop\\豆瓣.xlsx"

	//影视评分
	Score = flag.Float64("score", 0, "score")
	//分页
	Page = flag.Int("page", 0, "page")
	//影视类型
	Type = flag.String("type", "电影", "type")
)

func getAndParseHtml(movieUrl string) error {

	doc, err := goquery.NewDocument(mo
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值