爬取豆瓣Top250并存储Excel

最新推荐文章于 2025-09-29 11:14:24 发布

原创

最新推荐文章于 2025-09-29 11:14:24 发布 · 1.2k 阅读

4 ·

CC 4.0 BY-SA版权

文章标签：

#爬虫

本文介绍了如何使用爬虫技术抓取豆瓣Top250电影的详细信息，并将数据有效存储到Excel文件中，以便进一步的数据分析和处理。

爬虫

网络爬虫：
网络爬虫是按照一定规则，自动抓取互联网信息的程序或者脚本。由于
互联网数据的多样性和资源的有限性，根据用户需求定向抓取相关网页
并分析成为目前主流的爬取策略

本质：
模拟浏览器打开网页，获取网页中我们想要的部分数据

编码规范：
一般python第一行需要加入
# -*-conding:utf-8 -*-或者 # coding=utf-8

python文件中可以加入main函数用于测试程序
if __name__ == "__main__":

爬取豆瓣Top250并存储Excel

# -*- codeing = utf-8 -*-
# @Time : 2021/11/16 16:08
# @File : spider.py
# @Software: PyCharm

from bs4 import BeautifulSoup      # 网页解析，获取数据
import re       # 正则表达式，进行文字匹配
import urllib.request, urllib.error  # 制定URL，获取网页数据
import xlwt     # 进行Excel操作
import sqlite3  # 进行sqlite数据库操作

def main():
    baseurl = 'https://movie.douban.com/top250?start='
    # 爬取网页
    datalist = getData(baseurl)
    savepath = '豆瓣电影top250.xls'

    # 保存数据
    # saveData(datalist,savepath)

# 影片详情链接的规则
findLink = re.compile(r'<a href="(.*?)">')
# 影片图片
findImgSrc = re.compile(r'<img.*src="(.*?)"',re.S)  # re.S让换行符包含在字符中
# 影片片名
findTitle =