基于协同过滤的电影推荐与大数据分析的可视化系统

放学-别走

已于 2024-06-26 15:10:52 修改

阅读量603

点赞数 5

CC 4.0 BY-SA版权

文章标签：大数据大作业 hive 爬虫 mysql 推荐算法 django

于 2024-06-26 14:30:00 首次发布

本文链接：https://blog.youkuaiyun.com/lhyandlwl/article/details/139987753

基于协同过滤的电影推荐与大数据分析的可视化系统

在大数据时代，数据分析和可视化是从大量数据中提取有价值信息的关键步骤。本文将介绍如何使用Python进行数据爬取，Hive进行数据分析，ECharts进行数据可视化，以及基于协同过滤算法进行电影推荐。

目录
1、豆瓣电影数据爬取
2、hive数据分析
3、echarts数据可视化
4、基于系统过滤进行电影推荐

1. 豆瓣电影数据爬取

首先，我们使用Python爬取豆瓣电影的相关数据。爬取的数据包括电影名称、评分、评价人数、电影详情链接、图片链接、摘要和相关信息，然后将mysql数据存到mysql中。

import pymysql
from bs4 import BeautifulSoup
import re  # 正则表达式，进行文字匹配
import urllib.request, urllib.error  # 指定URL，获取网页数据
import xlwt  # 进行excel操作

from data.mapper import savedata2mysql


def main():
    baseurl = "https://movie.douban.com/top250?start="
    datalist = getdata(baseurl)
    savedata2mysql(datalist)


findLink = re.compile(r'<a href="(.*?)">')  # 正则表达式模式的匹配，影片详情
findImgSrc = re.compile(r'<img.*src="(.*?)"', re.S)  # re.S让换行符包含在字符中,图片信息
findTitle = re.compile(r'<span class="title">(.*)</span>')  # 影片片名
findRating = re.compile(r'<span class="rating_num" property="v:average">(.*)</span>')  # 找到评分
findJudge = re.compile(r'<span>(\d*)人评价</span>')  # 找到评价人数 #\d表示数字
findInq = re.compile(r'<span class="inq">(.*)</span>')  # 找到概况
findBd = re.compile(r'<p class="">(.*?)</p>', re.S)  # 找到影片的相关内容，如导演，演员等


##获取网页数据
def getdata(baseurl):
    datalist = []
    for i in range(0, 10):
        url = baseurl + str(i * 25)  ##豆瓣页面上一共有十页信息，一页爬取完成后继续下一页
        html = geturl(url)
        soup = BeautifulSoup(html, "html.parser")  # 构建了一个BeautifulSoup类型的对象soup，是解析html的
        for item in soup.find_all("div", class_='item'):  ##find_all返回的是一个列表
            data = []  # 保存HTML中一部电影的所有信息
            item = str(item)  ##需要先转换为字符串findall才能进行搜索
            link = re.findall(findLink, item)[0]  ##findall返回的是列表，索引只将值赋值
            data.append(link)

            imgSrc = re.findall(findImgSrc, item)[0]
            data.append(imgSrc)

            titles = re.findall(findTitle, item)  ##有的影片只有一个中文名，有的有中文和英文
            if (len(titles) == 2):
                onetitle = titles[0]
                data.append(onetitle)
                twotitle = titles[1].replace("/", "")  # 去掉无关的符号
                data.append(twotitle)
            else:
                data.append(titles)
                data.append(" ")  ##将下一个值空出来

            rating = re.findall(findRating, item)[0]  # 添加评分
            data.append(rating)

            judgeNum = re.findall(findJudge, item)[0]  # 添加评价人数
            data.append(judgeNum)

            inq = re.findall(findInq, item)  # 添加概述
            if len(inq) != 0:
                inq = inq[0].replace("。"