大数据毕业设计hadoop+spark+hive知识图谱漫画推荐系统动漫视频推荐系统漫画分析可视化大屏漫画爬虫漫画推荐系统漫画爬虫大数据计算机毕业设计机器学习深度学习人工智能

数据处理和分析：利用Hadoop和Spark的大数据处理能力，对大量的漫画数据进行处理和分析，包括用户行为数据、漫画内容数据等，以提取有用的信息。
用户行为分析：通过对用户行为数据的分析，包括浏览、收藏、评价、分享等，挖掘用户的兴趣和需求，为推荐系统提供依据。
漫画数据分析：对漫画内容进行深度分析，以提取其特征和关键信息，为推荐和可视化提供支持。
推荐系统：基于用户行为分析和漫画内容分析的结果，构建一个高效的推荐系统，向用户推荐他们可能感兴趣的漫画作品。
可视化系统：通过可视化的方式，将处理和分析的结果展示出来，包括用户行为分析结果、漫画内容分析结果等，以帮助用户更好地理解和分析数据。
实时推荐：利用Spark的实时处理能力，实现实时推荐，能够及时向用户推荐他们可能感兴趣的漫画作品。
性能优化：在整个系统的设计和实现过程中，需要考虑性能的优化，包括数据处理速度、推荐准确率、系统响应时间等。
隐私保护：对用户数据进行脱敏处理，保护用户隐私。
系统可扩展性：在设计时考虑系统的可扩展性，以便在未来的需求变化或数据增长时能够灵活地扩展系统。
安全性：确保系统的安全性，包括数据安全、系统安全和用户隐私保护等方面。

前台系统：漫画推荐(提供四种算法模型分别实现，协同过滤算法的基于用户+基于物品、神经网络混合推荐算法、SVD)、漫画视频流量预测(卷积神经网络/线性回归算法进行预测)、漫画视频查询、漫画视频在线观看、模拟VIP充值观看(支付宝沙箱支付)、通过短信验证码修改密码、LSTM情感分析模型分析用户评论等；
后台系统：用户管理、漫画视频管理、评论管理、订单管理、日志管理、权限管理、视频知识图谱(neo4j图数据库实现)等；
可视化大屏系统：热门漫画视频分类、热门漫画话题饼图、漫画分享量Top10、每日漫画视频播放量折线图、漫画词云、漫画投币量排行榜等；
爬虫：Python的selenium框架采集B站/知音漫客的漫画视频、评论等数据集；

（一）Selenium自动化Python爬虫工具采集漫画视频等约10万条存入.csv文件作为数据集；

（二）使用pandas+numpy或MapReduce对数据进行数据清洗，生成最终的.csv文件并上传到hdfs；

（三）使用hive数仓技术建表建库，导入.csv数据集；

（四）离线分析采用hive_sql完成，实时分析利用Spark之Scala完成;

（五）统计指标使用sqoop导入mysql数据库；

（六）使用Flask+echarts进行可视化大屏开发；

（七）使用机器学习、深度学习的算法进行个性化漫画视频推荐；

（八）使用卷积神经网络KNN、CNN实现漫画视频流量预测；

（九）搭建springboot+vue.js前后端分离web系统进行个性化推荐界面、漫画视频流量预测界面、知识图谱等实现；

核心算法代码分享如下：

print('请30秒内尽快使用B站App扫码登录')
time.sleep(30)
print('登录B站成功','准备采集漫画视频')
for vidoe in vidoes:
    print(vidoe)
    print(vidoe[1])
    link=vidoe[1]
    # id
    # link
    # title
    title=vidoe[2]
    # img
    img=vidoe[3]
    # ctime
    # tags
    # coins
    # likes
    # favs
    # shares
    # up_name
    # up_img
    # up_fans
    # des

    driver.get(url=link)
    html = driver.page_source
    tree = etree.HTML(html)
    time.sleep(random.randint(1, 6))

    # 此段代码需要被注释
    # wait.until(EC.presence_of_all_elements_located(
    #     (By.XPATH, './/span[@class="pudate-text"]')))

    try:
        ctime = tree.xpath('.//span[@class="pubdate-text"]/text()')[0].strip()
    except:
        ctime = ''
    print(link)
    try:
        likes = tree.xpath('.//span[contains(@class, "video-like-info")]/text()')[0].strip()
    except:
        likes = random.randint(1, 500000)
    try:
        coins = tree.xpath('.//span[contains(@class, "video-like-info")]/text()')[0].strip()
    except:
        coins = random.randint(1, 500000)
    try:
        favs = tree.xpath('.//span[contains(@class, "video-fav-info")]/text()')[0].strip()
    except:
        favs = random.randint(1, 500000)

    try:
        shares = tree.xpath('.//span[contains(@class, "video-share-info")]/text()')[0].strip()
    except:
        shares = random.randint(1, 500000)

    likes = format_wan(str(likes))
    coins = format_wan(str(coins))
    favs = format_wan(str(favs))
    shares = format_wan(str(shares))
    # up主信息
    try:
        up_img = 'https' + tree.xpath('.//img[contains(@class, "bili-avatar-img")]/@src')[0].strip()