计算机毕业设计Python知识图谱中华古诗词可视化古诗词情感分析古诗词智能问答系统 AI大模型自动写诗大数据毕业设计(源码+LW文档+PPT+讲解)

最新推荐文章于 2025-12-05 22:05:00 发布

原创最新推荐文章于 2025-12-05 22:05:00 发布 · 768 阅读

13 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #课程设计 #知识图谱 #大数据 #python #数据分析 #spark

大数据毕业设计专栏收录该内容

6041 篇文章

订阅专栏

温馨提示：文末有优快云平台官方提供的学长联系方式的名片！

温馨提示：文末有优快云平台官方提供的学长联系方式的名片！

温馨提示：文末有优快云平台官方提供的学长联系方式的名片！

信息安全/网络安全大模型、大数据、深度学习领域中科院硕士在读，所有源码均一手开发！

感兴趣的可以先收藏起来，还有大家在毕设选题，项目以及论文编写等相关问题都可以给我留言咨询，希望帮助更多的人

介绍资料

任务书：Python知识图谱中华古诗词可视化与古诗词情感分析

一、任务背景

中华古诗词是中华文化的重要载体，蕴含丰富的历史、哲学与情感信息。然而，传统研究依赖人工阅读与文献整理，存在效率低、覆盖面窄、情感分析主观性强等问题。随着人工智能（AI）与知识图谱技术的发展，通过量化分析与可视化手段挖掘古诗词的文化价值已成为可能。本任务旨在利用Python构建中华古诗词知识图谱，实现情感自动分类与交互式可视化，为数字人文研究提供新工具。

二、任务目标

知识图谱构建：爬取全朝代中华古诗词文本及元数据，构建包含诗人、朝代、意象、情感等实体的知识图谱。
情感分析模型开发：训练深度学习模型，实现古诗词情感的自动分类（如“悲”“喜”“思乡”“壮志”等）。
可视化系统开发：基于Python开发Web交互系统，支持知识图谱探索、情感时空分布分析、意象情感关联展示等功能。

三、任务内容与分工

3.1 数据采集与预处理（负责人：A组）

任务：
- 从“中国哲学书电子化计划（CTEXT）”“搜韵网”等平台爬取全朝代古诗词文本及元数据（诗人、朝代、标题）。
- 清洗数据，处理乱码、重复项及缺失值。
- 构建诗词文本库（TXT/CSV格式）与元数据库（SQLite）。
输出：
- 清洗后的诗词数据集（含50万+首诗词）。
- 数据质量报告（包含数据分布、缺失值统计等）。

3.2 知识图谱构建（负责人：B组）

任务：
- 实体识别：使用Spacy+自定义词典识别诗词中的实体（如“李白”“长安”“月”）。
- 关系抽取：定义“创作”“引用”“意象关联”“情感表达”等关系，构建三元组（如“李白-创作-《静夜思》”“月-意象关联-思乡”）。
- 图谱存储：采用Neo4j图数据库存储知识图谱，支持高效查询（如“查找所有含‘月’的思乡诗”）。
输出：
- Neo4j知识图谱数据库（含10万+实体与50万+关系）。
- 知识图谱模式设计文档（包含实体类型、关系定义）。

3.3 情感分析模型开发（负责人：C组）

任务：
- 数据标注：人工标注1万首诗词的情感标签（如“悲-思乡”“喜-田园”），构建训练集。
- 模型选择：对比BERT、RoBERTa、TextCNN等模型，选择在测试集上F1值最高的模型。
- 情感细化：引入情感强度分级（如“微悲”“中悲”“极悲”），提升分析粒度。
- 跨朝代迁移学习：在唐宋诗词上预训练模型，微调后应用于其他朝代，解决数据稀疏问题。
输出：
- 训练好的情感分析模型（Python脚本+权重文件）。
- 模型评估报告（包含准确率、召回率、F1值等指标）。

3.4 可视化系统开发（负责人：D组）

任务：
- 交互式知识图谱：使用D3.js实现诗人社交网络可视化，支持缩放、筛选、点击查看详情。
- 情感时空热力图：结合Pyecharts展示不同朝代、地域的诗词情感分布（如唐代长安诗多“壮”，宋代江南诗多“婉”）。
- 意象情感词云：统计高频意象（如“月”“柳”）的情感倾向，生成动态词云。
- 系统集成：基于Flask框架开发Web系统，支持用户自定义查询（如按朝代、情感类型筛选诗词）。
输出：
- 可视化系统源代码（Python+HTML/CSS/JS）。
- 系统使用手册（包含功能说明与操作指南）。

3.5 测试与优化（全体成员）

任务：
- 对知识图谱查询、情感分析准确率、可视化交互功能进行测试。
- 根据测试结果优化模型参数与系统性能。
输出：
- 测试报告（包含问题记录与改进方案）。
- 优化后的系统版本（V1.0）。

四、技术路线

mermaid

	`graph TD`
	`A[数据采集] --> B[知识图谱构建]`
	`B --> C[实体识别]`
	`B --> D[关系抽取]`
	`C --> E[Neo4j存储]`
	`D --> E`
	`A --> F[情感分析]`
	`F --> G[数据标注]`
	`F --> H[模型训练]`
	`G --> H`
	`H --> I[情感分类]`
	`E --> J[可视化系统]`
	`I --> J`
	`J --> K[用户交互]`

五、时间计划

阶段	时间	任务	交付物
数据采集	第1-2周	爬取诗词数据，清洗与存储	诗词数据集、数据质量报告
图谱构建	第3-4周	实体识别、关系抽取、Neo4j存储	知识图谱数据库、模式文档
模型开发	第5-6周	数据标注、模型训练与评估	情感分析模型、评估报告
系统开发	第7-8周	可视化功能实现与集成	可视化系统源代码、使用手册
测试优化	第9周	系统测试与性能优化	测试报告、优化后系统版本

六、资源需求

硬件：服务器（16GB+内存，支持GPU加速）。
软件：Python 3.8+、Neo4j、Flask、D3.js、Pyecharts。
数据：全朝代古诗词文本及元数据（需合规获取）。
人力：4组（数据组、图谱组、模型组、系统组），每组2-3人。

七、风险评估与应对

风险类型	描述	应对方案
数据质量问题	爬取数据存在缺失或乱码	增加数据清洗规则，人工校验关键字段
模型性能不足	情感分类准确率低于预期	尝试集成学习（如BERT+LSTM）或增加训练数据
系统交互卡顿	可视化页面加载缓慢	优化D3.js渲染逻辑，采用分页加载