爬虫02-Excel文件的操作

该博客演示了如何利用Python的requests、BeautifulSoup和xlwt库爬取豆瓣电影Top250的电影标题和评分,并将数据写入Excel文件。通过遍历网页,提取相关信息,然后利用工作簿和工作表对象进行数据存储,最终保存为xls文件。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

将数据写入Excel文件

Excel 2007以前的版本---->xls---->xlwt/xlrd

​ 写/读

Excel 2007以后的版本---->xlsx—>openpyxl
一个工作簿下可以创建多个工作表(worksheet)
工作表是二维表,有行有列,列和行交汇的地方叫单元格

import re
import time
import random
import csv
import bs4
import requests
import xlwt

# 创建一个工作簿对象
wb = xlwt.Workbook()
# 通过工作簿对象的add_sheet方法添加一张工作表
sheet = wb.add_sheet('TOP250')
# 向表中写入数据
sheet.write(0,0,'标题')
sheet.write(0,1,'评分')
row = 1
pattern = re.compile(r'<span class="title">(.+?)</span>')
for page in range(10):
    resp = requests.get(
        url=f'https://movie.douban.com/top250?start={page * 25}',
        headers={
            'User-Agent': 'http://piping.mogumiao.com/proxy/api/get_ip_bs?appKey=3ee6f035175f4b508d8a825da0fb3833&count=4&expiryDate=0&format=2&newLine=3'
        }
    )
    # print(resp.status_code)
    if resp.status_code == 200:
        soup = bs4.BeautifulSoup(resp.text, 'html.parser')
        # nth-child(1)--- a标签的span里第一个孩子的元素
        title_span_list = soup.select('div.info>div.hd>a>span:nth-child(1)')
        rating_span_list = soup.select('div.info>div.bd>div>span.rating_num')
        for title_span, rating_span in zip(title_span_list, rating_span_list):
            sheet.write(row,0,title_span.text)
            sheet.write(row,1,rating_span.text)
            row += 1
    time.sleep(random.randint(1,3))
    # 保存工作簿
    wb.save('豆瓣电影.xls')
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值