计算机毕业设计hadoop+hive微博舆情预测微博舆情分析微博推荐系统微博预警系统微博数据分析可视化大屏微博情感分析微博爬虫知识图谱机器学习深度学习人工智能大数据毕业设计

最新推荐文章于 2025-08-20 22:53:50 发布

原创最新推荐文章于 2025-08-20 22:53:50 发布 · 928 阅读

13 ·

CC 4.0 BY-SA版权

文章标签：

#hadoop #人工智能 #大数据 #爬虫 #机器学习 #推荐算法 #python

大数据毕业设计专栏收录该内容

6314 篇文章

订阅专栏

本文阐述了一项黑龙江大学本科生的毕业设计，研究背景是利用深度学习技术处理和分析社交媒体数据，提升微博数据分析的效率与精度。项目涉及数据采集、清洗、存储、分析（包括实时和离线）、可视化、个性化推荐以及热搜话题预测。计划从2023年9月开始至2024年5月完成整个设计与开发过程。

部署运行你感兴趣的模型镜像

黑龙江大学本科生毕业论文（设计）开题计划
论文（设计）题目：基于深度学习的微博数据分析及预测系统
姓名	学号	指导教师	孔凡辉
专业
论文（设计）起止时间
一、论文（设计）研究背景与意义
研究背景随着互联网的快速发展，社交媒体平台如微博等逐渐成为人们表达观点、分享信息、交流互动的主要渠道。每天有大量的用户生成内容（UGC）被发布到微博上，这其中蕴含了丰富的信息和社会动态。如何有效地对这些数据进行处理和分析，提取出有价值的信息和趋势预测，成为了一个重要的问题。传统的微博数据分析方法往往基于人工统计和简单的文本分析，难以处理大规模、复杂的数据，也无法实现精准的趋势预测。近年来，深度学习技术在自然语言处理（NLP）、图像识别、语音识别等领域取得了显著的成果，为处理微博这种富含文本信息的数据提供了新的解决方案。意义理论意义：本研究将深化对社交媒体数据特性的理解，丰富和发展数据挖掘和文本分析的理论和方法。同时，通过深度学习技术对微博数据的处理和分析，可以进一步挖掘用户行为模式、观点倾向、话题热点等，为社交媒体研究提供新的视角和工具。实践意义：对于企业和政府机构来说，通过本系统的分析和预测，可以更好地了解公众的意见和态度，及时发现和引导舆情，优化产品和服务。同时，对于学术研究来说，本系统可以提供大量的实证数据和分析结果，推动社会科学和信息科学的发展。
二、论文（设计）的主要内容
（一）Selenium自动化Python爬虫工具采集新浪微博评论、热搜、文章等约10万条存入.csv文件作为数据集；（二）使用pandas+numpy或MapReduce对数据进行数据清洗，生成最终的.csv文件并上传到hdfs；（三）使用hive数仓技术建表建库，导入.csv数据集；（四）离线分析采用hive_sql完成，实时分析利用Spark之Scala完成; （五）统计指标使用sqoop导入mysql数据库；（六）使用Flask+echarts进行可视化大屏开发；（七）使用机器学习、深度学习的算法进行个性化微博推荐；（八）使用卷积神经网络KNN、CNN实现热搜话题流量预测；（九）搭建springboot+vue.js前后端分离web系统进行个性化推荐界面、话题流量预测界面、知识图谱等实现；
三、论文（设计）进度安排
2023.09.01—2023.09.28: 收集检索微博数据分析、预测算法相关知识和资料，进行需求分析、学习研究技能； 2023.10.07—2023.10.31：完成开题报告，进行开题答辩； 2024.11.01—2024.02.09：分析系统应完成的功能，完成概要设计； 2024.02.19—2024.03.20：初步完成系统分析与设计；系统开发，测试。 2024.03.21—2024.04.15：资料整合、论文定稿，准备迎接学术不端检测， 2024.04.16—2024.04.30：撰写 PPT，准备参加答辩； 7、2024.05.01—2024.05.10：完成毕业答辩，提交所有毕业论文的数据源、图表、论文；
四、指导教师意见

核心算法代码分享如下：

package com.sql

import org.apache.spark.sql.SparkSession
import org.apache.spark.sql.types._
import org.junit.Test

import java.util.Properties

class WeiboSpark2024 {
  val spark = SparkSession.builder()
    .master("local[6]")
    .appName("微博大数据Spark分析2024")
    .getOrCreate()
  val ods_weibo_schema = StructType(
    List(
      StructField("title", StringType),
      StructField("hot", IntegerType),
      StructField("create_time", StringType),
      StructField("auname",StringType),
      StructField("acmt", StringType),
      StructField("shares", IntegerType),
      StructField("comments",IntegerType),
      StructField("alikes", IntegerType),
      StructField("cuname", StringType),
      StructField("ccmt", StringType),
      StructField("clikes", IntegerType),
      StructField("level", StringType),
      StructField("addr", StringType),
      StructField("label", StringType),
      StructField("probs", FloatType),
      StructField("ctime", StringType)

    )
  )

  val ods_weibo_df = spark.read.option("header", "false").schema(ods_weibo_schema).csv("hdfs://bigdata:9000/weibo2024/weibo/weibo.csv")





  @Test
  def init(): Unit = {
    ods_weibo_df.show()
  }

//指标6 新浪微博日活实时分析
  @Test
  def tables06(): Unit = {
    ods_weibo_df.createOrReplaceTempView("ods_weibo")
    val df2 = spark.sql(
      """
            select create_time,count(distinct cuname) num
            from ods_weibo
            group by create_time
            order by create_time desc
            limit 10
    """)
    df2
//      .show(50)
     .coalesce(1)
      .write
      .mode("overwrite")
      .option("driver", "com.mysql.cj.jdbc.Driver")
      .option("user", "root")
      .option("password", "123456")
      .jdbc(
        "jdbc:mysql://bigdata:3306/hive_weibo?useSSL=false",
        "tables06",
        new Properties()
      )
  }





}

您可能感兴趣的与本文相关的镜像