爬虫02-Excel文件的操作

最新推荐文章于 2024-01-08 15:04:54 发布

niki__

最新推荐文章于 2024-01-08 15:04:54 发布

阅读量135

点赞数

CC 4.0 BY-SA版权

分类专栏： python+人工智能学习文章标签： python

本文链接：https://blog.youkuaiyun.com/niki__/article/details/121459437

python+人工智能学习专栏收录该内容

37 篇文章

订阅专栏

该博客演示了如何利用Python的requests、BeautifulSoup和xlwt库爬取豆瓣电影Top250的电影标题和评分，并将数据写入Excel文件。通过遍历网页，提取相关信息，然后利用工作簿和工作表对象进行数据存储，最终保存为xls文件。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

将数据写入Excel文件

Excel 2007以前的版本---->xls---->xlwt/xlrd

写/读

Excel 2007以后的版本---->xlsx—>openpyxl
一个工作簿下可以创建多个工作表(worksheet)
工作表是二维表，有行有列，列和行交汇的地方叫单元格

import re
import time
import random
import csv
import bs4
import requests
import xlwt

# 创建一个工作簿对象
wb = xlwt.Workbook()
# 通过工作簿对象的add_sheet方法添加一张工作表
sheet = wb.add_sheet('TOP250')
# 向表中写入数据
sheet.write(0,0,'标题')
sheet.write(0,1,'评分')
row = 1
pattern = re.compile(r'<span class="title">(.+?)</span>')
for page in range(10):
    resp = requests.get(
        url=f'https://movie.douban.com/top250?start={page * 25}',
        headers={
            'User-Agent': 'http://piping.mogumiao.com/proxy/api/get_ip_bs?appKey=3ee6f035175f4b508d8a825da0fb3833&count=4&expiryDate=0&format=2&newLine=3'
        }
    )
    # print(resp.status_code)
    if resp.status_code == 200:
        soup = bs4.BeautifulSoup(resp.text, 'html.parser')
        # nth-child(1)--- a标签的span里第一个孩子的元素
        title_span_list = soup.select('div.info>div.hd>a>span:nth-child(1)')
        rating_span_list = soup.select('div.info>div.bd>div>span.rating_num')
        for title_span, rating_span in zip(title_span_list, rating_span_list):
            sheet.write(row,0,title_span.text)
            sheet.write(row,1,rating_span.text)
            row += 1
    time.sleep(random.randint(1,3))
    # 保存工作簿
    wb.save('豆瓣电影.xls')