top250爬虫
利用urllib.request爬取网页信息,然后用BeautifulSoup进行网页解析,再利用re匹配正则表达式,将每部电影的信息(本例爬取电影中文名,电影外文名,电影总评分,电影总评价人数以及电影概况)爬取放入列表list,即data=[“电影中文名”,“电影外文名”,“电影总评分”,“电影总评价人数”,“电影概况”],然后将data放入dataList中,即dataList=[[data],[data],[data],…],然后将信息保存在数据库中(本例中使用的是SQLite),将数据库保存后,再读取数据库里面的信息,保存一份excel文件。
# -*- coding: utf-8 -*-
# user/bin/env python
# @Author:guyu
# @Data:2021/8/27 19:32
# @File : top250.py
import sqlite3 #用于创建数据库
from bs4 import BeautifulSoup #网页解析,获取数据
import time #计算程序运行时间并输出
import re #正则表达式,进行文字匹配
import urllib.request,urllib.error #制定URL,获取网页数据
import xlwt #进行excel操作
def main():
baseurl = "https://movie.douban.com/top250?start="
savepath = '.\\top250.xls'
#抓取网页
print("正在获取电影信息...")
dataList = getData(baseurl)
print("获取电影信息成功。")
print("正在将信息保存至数据库...")
#将抓取到的整理并保存
dbpath = "top250.db" #第一种存储方式:建数据库,存储
saveData2DB(dataList, dbpath)
print("已将信息保存至top250.db。")
print("正在将文件保存至top250.xls")
saveData2xls(dbpath,savepath) #第二种存储方式:保存为xls文档
print("已将信息保存至top250.xls。")
#findTitle:匹配电影名称
#findRating:匹配电影评分
#findJudgeNum:匹配电影评价人数
#findInq:匹配电影概况
findTitle = re.compile(r'<span class="title">(.*)</span>')
findRating = re.compile(r'<span class="rating_num" property="v:average">(.*)</span>')
findJudgeNum = re.compile(r'<span>(.*)人评价</span>')
findInq = re.compile(r'<span class="inq">(.*)</span>')
#将每个电影的信息放在一个列表中
def getData(baseurl):
dataList = [] #创建一个列表,将每个电影需要内容放到列表中作为一个元素
for i in range(0,10):
url = baseurl + str(i*25) #豆瓣电影Top250共10页,每页有25部电影
html = getURL(url) #获取每个网页的源码并保存
#对收到的每一页html进行解析并保存
#soup = BeautifulSoup(html, "html.parser")
soup = BeautifulSoup(html,"html.parser")
#查看网站源代码可知每部电影的信息都放在<div class="item">中
for item in soup.find_all("div",class_="item"):
# data用来存放每部电影的详细信息,然后将这个列表当作元素存放在列表dataList
#每次循环放入一部电影信息
#即data=["ctitle“,"otitle","reting","judgeNum","inq"]
#dataList=[[data],[data],[data],...]
data = []
item = str(item)#将item转化为字符串类型
titles= re.findall(findTitle,item)
# 影片名可能只有中国名没有外国名
if len(titles) == 2:
ctitle = titles[0]
data.append(ctitle)
otitle = titles[1].replace("/", "").strip() #去掉无关符号/
data.append(otitle)
#或者只有中文名,那么外国名用空格占位
else:
ctitle = titles[0]
data.append(ctitle)
otitle = ' '
data.append(otitle)
rating = re.findall(findRating,item)[0]
data.append(rating)
judgeNum = re.findall(findJudgeNum,item)[0]
data.append(judgeNum)
inq = re.findall(findInq,item)
#电影可能没有一句话评价
if (len(inq)) != 0:
inq = inq[0].replace("。", "") #去掉评价的句号
data.append(inq)
else:
data.append(" ")
dataList.append(data) # 把处理好的一部电影信息放入;list
# print(dataList)
return dataList
#获取每个网页的源码并保存
def getURL(url):
# 用户代理表示告诉豆瓣服务器,我们是什么浏览器(本质上是告诉浏览器,我们可以接受什么水平的文件内容
# 模拟浏览器头部信息,像豆瓣服务器发送消息
# pro = ["58.220.95.32","60.7.209.129","60.7.97.36","60.5.172.252"]
head = {
"User-Agent": "Mozilla/5.0(Windows NT 10.0;WOW64) AppleWebKit/537.36(KHTML, likeGecko) Chrome/86.0.4240.198Safari/537.36"
}
request = urllib.request.Request(url = url,headers = head)
html = ""
try:
#接收网页源代码至html
response = urllib.request.urlopen(request)
html = response.read().decode("utf-8") #将网页源码解码为utf-8
except urllib.error.URLError as e: #当获取网页失败时,接受错误并打印错误原因
if hasattr(e,"code"):
print(e.code)
if hasattr(e,"reason"):
print(e.reason)
return html #将获取到的整页html返回
#从列表中读取电影信息并存放在一个数据库中
def saveData2DB(dataList, dbpath):
init_db(dbpath)
conn = sqlite3.connect(dbpath)
cur = conn.cursor()
for data in dataList:
for index in range(len(data)):
if index == 2 or index == 3:
continue
data[index] = '"' + data[index] + '"'
sql = '''
insert into top250(
ctitle,otitle,rating,judgeNum,inq)
values (%s)''' % ",".join(data)
cur.execute(sql)
conn.commit()
cur.close()
conn.close()
def init_db(dbpath):
#创建数据表格式
sql = '''
create table top250(
id integer primary key autoincrement,
ctitle varchar,
otitle varchar ,
rating numeric,
judgeNum numeric,
inq text
)
'''
conn = sqlite3.connect(dbpath)
cursor = conn.cursor()
cursor.execute(sql)
conn.commit()
conn.close()
def saveData2xls(dbpath,savepath):
book = xlwt.Workbook(encoding='utf-8', style_compression=0) # encoding:设置编码,可写中文;style_compression:是否压缩,不常用
sheet = book.add_sheet('豆瓣电影top250', cell_overwrite_ok=True) # 创建工作表,可覆盖
col = ("影片中文名", "影片外国名", "总评分", "总评价人数", "电影概况")
for i in range(0,5 ):
sheet.write(0,i,col[i]) #列名
sql1 = '''
select ctitle,otitle,rating,JudgeNum,inq from top250
'''
conn = sqlite3.connect("top250.db") #打开数据库
cur = conn.cursor() #获取游标
cursor = cur.execute(sql1) ##执行sql语句,有返回值
x = 1
for row in cursor:
for i in range(0,5):
sheet.write(x,i,row[i])
x += 1
conn.close()
book.save(savepath)
if __name__ == '__main__':
timeStart = time.time()
main()
timeFanish = time.time()
print("电影信息处理完毕。", '用时{:.2f}秒'.format(timeFanish - timeStart))