爬虫实例

最新推荐文章于 2023-10-29 12:45:00 发布

很想轧戏的Ivy

最新推荐文章于 2023-10-29 12:45:00 发布

阅读量363

点赞数

分类专栏：学习编程

本文链接：https://blog.youkuaiyun.com/weixin_43776659/article/details/115432754

版权

本文详细介绍了如何使用爬虫技术抓取豆瓣Top250电影的图片链接以及用户评价，涵盖了网络请求、HTML解析和数据提取等关键步骤。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

爬豆瓣T250图片链接、评价

# -*- codeing = utf-8 -*-     设置编码为utf-8 ，写在开头，防止乱码
from bs4 import BeautifulSoup  # 网页解析，获取数据
import re  # 正则表达式，进行文字匹配`
import urllib.request, urllib.error  # 制定URL，获取网页数据
import xlwt  # 进行excel操作
#import sqlite3  # 进行SQLite数据库操作 sqlite3这库我并没有用到
#下面一些find开头的是正则表达式，是用来我们筛选信息的。
#（正则表达式用到 re 库，也可以不用正则表达式，不是必须的。

findLink = re.compile(r'<a href="(.*?)">')  # 创建正则表达式对象，标售规则   影片详情链接的规则
findImgSrc = re.compile(r'<img.*src="(.*?)"', re.S)
findTitle = re.compile(r'<span class="title">(.*)</span>')
findRating = re.compile(r'<span class="rating_num" property="v:average">(.*)</span>')
findJudge = re.compile(r'<span>(\d*)人评价</span>')
findInq = re.compile(r'<span class="inq">(.*)</span>')
findBd = re.compile(r'<p class="">(.*?)</p>', re.S)

def main():
    baseurl = "https://movie.douban.com/top250?start="  #要爬取的网页链接
    # 1.爬取网页
    datalist = getData(baseurl)
    savepath = "豆瓣电影Top250.xls"    #当前目录新建XLS，存储进去
    # dbpath = "movie.db"              #当前目录新建数据库，存储进去
    # 3.保存数据
    saveData(datalist,savepath)      #2种存储方式可以只选择一种
    # saveData2DB(datalist,dbpath)

# 第一步！！！爬取网页————————————————————————————
def getData(baseurl):
    datalist = []  #用来存储爬取的网页信息

最低0.47元/天解锁文章