|
黑龙江大学本科生毕业论文(设计)开题计划 | |||||
|
论文(设计)题目: 基于深度学习的微博数据分析及预测系统 | |||||
|
姓名 |
学号 |
指导教师 |
孔凡辉 | ||
|
专业 | |||||
|
论文(设计)起止时间 | |||||
|
一、论文(设计)研究背景与意义 | |||||
|
研究背景 随着互联网的快速发展,社交媒体平台如微博等逐渐成为人们表达观点、分享信息、交流互动的主要渠道。每天有大量的用户生成内容(UGC)被发布到微博上,这其中蕴含了丰富的信息和社会动态。如何有效地对这些数据进行处理和分析,提取出有价值的信息和趋势预测,成为了一个重要的问题。 传统的微博数据分析方法往往基于人工统计和简单的文本分析,难以处理大规模、复杂的数据,也无法实现精准的趋势预测。近年来,深度学习技术在自然语言处理(NLP)、图像识别、语音识别等领域取得了显著的成果,为处理微博这种富含文本信息的数据提供了新的解决方案。 意义
| |||||
|
二、论文(设计)的主要内容 | |||||
|
(一)Selenium自动化Python爬虫工具采集新浪微博评论、热搜、文章等约10万条存入.csv文件作为数据集; (二)使用pandas+numpy或MapReduce对数据进行数据清洗,生成最终的.csv文件并上传到hdfs; (三)使用hive数仓技术建表建库,导入.csv数据集; (四)离线分析采用hive_sql完成,实时分析利用Spark之Scala完成; (五)统计指标使用sqoop导入mysql数据库; (六)使用Flask+echarts进行可视化大屏开发; (七)使用机器学习、深度学习的算法进行个性化微博推荐; (八)使用卷积神经网络KNN、CNN实现热搜话题流量预测; (九)搭建springboot+vue.js前后端分离web系统进行个性化推荐界面、话题流量预测界面、知识图谱等实现; | |||||
|
三、论文(设计)进度安排 | |||||
7、2024.05.01—2024.05.10:完成毕业答辩,提交所有毕业论文的数据源、图表、论文; | |||||
|
四、指导教师意见 | |||||













核心算法代码分享如下:
package com.sql
import org.apache.spark.sql.SparkSession
import org.apache.spark.sql.types._
import org.junit.Test
import java.util.Properties
class WeiboSpark2024 {
val spark = SparkSession.builder()
.master("local[6]")
.appName("微博大数据Spark分析2024")
.getOrCreate()
val ods_weibo_schema = StructType(
List(
StructField("title", StringType),
StructField("hot", IntegerType),
StructField("create_time", StringType),
StructField("auname",StringType),
StructField("acmt", StringType),
StructField("shares", IntegerType),
StructField("comments",IntegerType),
StructField("alikes", IntegerType),
StructField("cuname", StringType),
StructField("ccmt", StringType),
StructField("clikes", IntegerType),
StructField("level", StringType),
StructField("addr", StringType),
StructField("label", StringType),
StructField("probs", FloatType),
StructField("ctime", StringType)
)
)
val ods_weibo_df = spark.read.option("header", "false").schema(ods_weibo_schema).csv("hdfs://bigdata:9000/weibo2024/weibo/weibo.csv")
@Test
def init(): Unit = {
ods_weibo_df.show()
}
//指标6 新浪微博日活实时分析
@Test
def tables06(): Unit = {
ods_weibo_df.createOrReplaceTempView("ods_weibo")
val df2 = spark.sql(
"""
select create_time,count(distinct cuname) num
from ods_weibo
group by create_time
order by create_time desc
limit 10
""")
df2
// .show(50)
.coalesce(1)
.write
.mode("overwrite")
.option("driver", "com.mysql.cj.jdbc.Driver")
.option("user", "root")
.option("password", "123456")
.jdbc(
"jdbc:mysql://bigdata:3306/hive_weibo?useSSL=false",
"tables06",
new Properties()
)
}
}
本文阐述了一项黑龙江大学本科生的毕业设计,研究背景是利用深度学习技术处理和分析社交媒体数据,提升微博数据分析的效率与精度。项目涉及数据采集、清洗、存储、分析(包括实时和离线)、可视化、个性化推荐以及热搜话题预测。计划从2023年9月开始至2024年5月完成整个设计与开发过程。
747

被折叠的 条评论
为什么被折叠?



