计算机毕业设计hadoop+hive微博舆情预测 微博舆情分析 微博推荐系统 微博预警系统 微博数据分析可视化大屏 微博情感分析 微博爬虫 知识图谱 机器学习 深度学习 人工智能 大数据毕业设计

本文阐述了一项黑龙江大学本科生的毕业设计,研究背景是利用深度学习技术处理和分析社交媒体数据,提升微博数据分析的效率与精度。项目涉及数据采集、清洗、存储、分析(包括实时和离线)、可视化、个性化推荐以及热搜话题预测。计划从2023年9月开始至2024年5月完成整个设计与开发过程。
部署运行你感兴趣的模型镜像

黑龙江大学本科生毕业论文(设计)开题计划 

论文(设计)题目:  基于深度学习的微博数据分析及预测系统

姓名 

学号 

指导教师 

孔凡辉

专业 

论文(设计)起止时间 

一、论文(设计)研究背景与意义 

研究背景

随着互联网的快速发展,社交媒体平台如微博等逐渐成为人们表达观点、分享信息、交流互动的主要渠道。每天有大量的用户生成内容(UGC)被发布到微博上,这其中蕴含了丰富的信息和社会动态。如何有效地对这些数据进行处理和分析,提取出有价值的信息和趋势预测,成为了一个重要的问题。

传统的微博数据分析方法往往基于人工统计和简单的文本分析,难以处理大规模、复杂的数据,也无法实现精准的趋势预测。近年来,深度学习技术在自然语言处理(NLP)、图像识别、语音识别等领域取得了显著的成果,为处理微博这种富含文本信息的数据提供了新的解决方案。

意义 

  • 理论意义:本研究将深化对社交媒体数据特性的理解,丰富和发展数据挖掘和文本分析的理论和方法。同时,通过深度学习技术对微博数据的处理和分析,可以进一步挖掘用户行为模式、观点倾向、话题热点等,为社交媒体研究提供新的视角和工具。
  • 实践意义:对于企业和政府机构来说,通过本系统的分析和预测,可以更好地了解公众的意见和态度,及时发现和引导舆情,优化产品和服务。同时,对于学术研究来说,本系统可以提供大量的实证数据和分析结果,推动社会科学和信息科学的发展。

二、论文(设计)的主要内容 

(一)Selenium自动化Python爬虫工具采集新浪微博评论、热搜、文章等约10万条存入.csv文件作为数据集;

(二)使用pandas+numpy或MapReduce对数据进行数据清洗,生成最终的.csv文件并上传到hdfs;

(三)使用hive数仓技术建表建库,导入.csv数据集;

(四)离线分析采用hive_sql完成,实时分析利用Spark之Scala完成;

(五)统计指标使用sqoop导入mysql数据库;

(六)使用Flask+echarts进行可视化大屏开发;

(七)使用机器学习、深度学习的算法进行个性化微博推荐;

(八)使用卷积神经网络KNN、CNN实现热搜话题流量预测;

(九)搭建springboot+vue.js前后端分离web系统进行个性化推荐界面、话题流量预测界面、知识图谱等实现;

三、论文(设计)进度安排 

  1. 2023.09.01—2023.09.28: 收集检索微博数据分析、预测算法相关知识和资料,进行需求分析、学习研究技能;
  2. 2023.10.07—2023.10.31:完成开题报告,进行开题答辩;
  3. 2024.11.01—2024.02.09:分析系统应完成的功能,完成概要设计;
  4. 2024.02.19—2024.03.20:初步完成系统分析与设计;系统开发,测试。
  5. 2024.03.21—2024.04.15:资料整合、论文定稿,准备迎接学术不端检测,
  6. 2024.04.16—2024.04.30:撰写 PPT,准备参加答辩;

7、2024.05.01—2024.05.10:完成毕业答辩,提交所有毕业论文的数据源、图表、论文;

四、指导教师意见 

核心算法代码分享如下:

package com.sql

import org.apache.spark.sql.SparkSession
import org.apache.spark.sql.types._
import org.junit.Test

import java.util.Properties

class WeiboSpark2024 {
  val spark = SparkSession.builder()
    .master("local[6]")
    .appName("微博大数据Spark分析2024")
    .getOrCreate()
  val ods_weibo_schema = StructType(
    List(
      StructField("title", StringType),
      StructField("hot", IntegerType),
      StructField("create_time", StringType),
      StructField("auname",StringType),
      StructField("acmt", StringType),
      StructField("shares", IntegerType),
      StructField("comments",IntegerType),
      StructField("alikes", IntegerType),
      StructField("cuname", StringType),
      StructField("ccmt", StringType),
      StructField("clikes", IntegerType),
      StructField("level", StringType),
      StructField("addr", StringType),
      StructField("label", StringType),
      StructField("probs", FloatType),
      StructField("ctime", StringType)

    )
  )

  val ods_weibo_df = spark.read.option("header", "false").schema(ods_weibo_schema).csv("hdfs://bigdata:9000/weibo2024/weibo/weibo.csv")





  @Test
  def init(): Unit = {
    ods_weibo_df.show()
  }

//指标6 新浪微博日活实时分析
  @Test
  def tables06(): Unit = {
    ods_weibo_df.createOrReplaceTempView("ods_weibo")
    val df2 = spark.sql(
      """
            select create_time,count(distinct cuname) num
            from ods_weibo
            group by create_time
            order by create_time desc
            limit 10
    """)
    df2
//      .show(50)
     .coalesce(1)
      .write
      .mode("overwrite")
      .option("driver", "com.mysql.cj.jdbc.Driver")
      .option("user", "root")
      .option("password", "123456")
      .jdbc(
        "jdbc:mysql://bigdata:3306/hive_weibo?useSSL=false",
        "tables06",
        new Properties()
      )
  }





}







您可能感兴趣的与本文相关的镜像

TensorFlow-v2.9

TensorFlow-v2.9

TensorFlow

TensorFlow 是由Google Brain 团队开发的开源机器学习框架,广泛应用于深度学习研究和生产环境。 它提供了一个灵活的平台,用于构建和训练各种机器学习模型

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

B站计算机毕业设计大学

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值