温馨提示:文末有 优快云 平台官方提供的学长联系方式的名片!
温馨提示:文末有 优快云 平台官方提供的学长联系方式的名片!
温馨提示:文末有 优快云 平台官方提供的学长联系方式的名片!
信息安全/网络安全 大模型、大数据、深度学习领域中科院硕士在读,所有源码均一手开发!
感兴趣的可以先收藏起来,还有大家在毕设选题,项目以及论文编写等相关问题都可以给我留言咨询,希望帮助更多的人
介绍资料
任务书:Python知识图谱中华古诗词可视化与古诗词情感分析
一、任务背景
中华古诗词是中华文化的重要载体,蕴含丰富的历史、哲学与情感信息。然而,传统研究依赖人工阅读与文献整理,存在效率低、覆盖面窄、情感分析主观性强等问题。随着人工智能(AI)与知识图谱技术的发展,通过量化分析与可视化手段挖掘古诗词的文化价值已成为可能。本任务旨在利用Python构建中华古诗词知识图谱,实现情感自动分类与交互式可视化,为数字人文研究提供新工具。
二、任务目标
- 知识图谱构建:爬取全朝代中华古诗词文本及元数据,构建包含诗人、朝代、意象、情感等实体的知识图谱。
- 情感分析模型开发:训练深度学习模型,实现古诗词情感的自动分类(如“悲”“喜”“思乡”“壮志”等)。
- 可视化系统开发:基于Python开发Web交互系统,支持知识图谱探索、情感时空分布分析、意象情感关联展示等功能。
三、任务内容与分工
3.1 数据采集与预处理(负责人:A组)
- 任务:
- 从“中国哲学书电子化计划(CTEXT)”“搜韵网”等平台爬取全朝代古诗词文本及元数据(诗人、朝代、标题)。
- 清洗数据,处理乱码、重复项及缺失值。
- 构建诗词文本库(TXT/CSV格式)与元数据库(SQLite)。
- 输出:
- 清洗后的诗词数据集(含50万+首诗词)。
- 数据质量报告(包含数据分布、缺失值统计等)。
3.2 知识图谱构建(负责人:B组)
- 任务:
- 实体识别:使用Spacy+自定义词典识别诗词中的实体(如“李白”“长安”“月”)。
- 关系抽取:定义“创作”“引用”“意象关联”“情感表达”等关系,构建三元组(如“李白-创作-《静夜思》”“月-意象关联-思乡”)。
- 图谱存储:采用Neo4j图数据库存储知识图谱,支持高效查询(如“查找所有含‘月’的思乡诗”)。
- 输出:
- Neo4j知识图谱数据库(含10万+实体与50万+关系)。
- 知识图谱模式设计文档(包含实体类型、关系定义)。
3.3 情感分析模型开发(负责人:C组)
- 任务:
- 数据标注:人工标注1万首诗词的情感标签(如“悲-思乡”“喜-田园”),构建训练集。
- 模型选择:对比BERT、RoBERTa、TextCNN等模型,选择在测试集上F1值最高的模型。
- 情感细化:引入情感强度分级(如“微悲”“中悲”“极悲”),提升分析粒度。
- 跨朝代迁移学习:在唐宋诗词上预训练模型,微调后应用于其他朝代,解决数据稀疏问题。
- 输出:
- 训练好的情感分析模型(Python脚本+权重文件)。
- 模型评估报告(包含准确率、召回率、F1值等指标)。
3.4 可视化系统开发(负责人:D组)
- 任务:
- 交互式知识图谱:使用D3.js实现诗人社交网络可视化,支持缩放、筛选、点击查看详情。
- 情感时空热力图:结合Pyecharts展示不同朝代、地域的诗词情感分布(如唐代长安诗多“壮”,宋代江南诗多“婉”)。
- 意象情感词云:统计高频意象(如“月”“柳”)的情感倾向,生成动态词云。
- 系统集成:基于Flask框架开发Web系统,支持用户自定义查询(如按朝代、情感类型筛选诗词)。
- 输出:
- 可视化系统源代码(Python+HTML/CSS/JS)。
- 系统使用手册(包含功能说明与操作指南)。
3.5 测试与优化(全体成员)
- 任务:
- 对知识图谱查询、情感分析准确率、可视化交互功能进行测试。
- 根据测试结果优化模型参数与系统性能。
- 输出:
- 测试报告(包含问题记录与改进方案)。
- 优化后的系统版本(V1.0)。
四、技术路线
mermaid
graph TD | |
A[数据采集] --> B[知识图谱构建] | |
B --> C[实体识别] | |
B --> D[关系抽取] | |
C --> E[Neo4j存储] | |
D --> E | |
A --> F[情感分析] | |
F --> G[数据标注] | |
F --> H[模型训练] | |
G --> H | |
H --> I[情感分类] | |
E --> J[可视化系统] | |
I --> J | |
J --> K[用户交互] |
五、时间计划
| 阶段 | 时间 | 任务 | 交付物 |
|---|---|---|---|
| 数据采集 | 第1-2周 | 爬取诗词数据,清洗与存储 | 诗词数据集、数据质量报告 |
| 图谱构建 | 第3-4周 | 实体识别、关系抽取、Neo4j存储 | 知识图谱数据库、模式文档 |
| 模型开发 | 第5-6周 | 数据标注、模型训练与评估 | 情感分析模型、评估报告 |
| 系统开发 | 第7-8周 | 可视化功能实现与集成 | 可视化系统源代码、使用手册 |
| 测试优化 | 第9周 | 系统测试与性能优化 | 测试报告、优化后系统版本 |
六、资源需求
- 硬件:服务器(16GB+内存,支持GPU加速)。
- 软件:Python 3.8+、Neo4j、Flask、D3.js、Pyecharts。
- 数据:全朝代古诗词文本及元数据(需合规获取)。
- 人力:4组(数据组、图谱组、模型组、系统组),每组2-3人。
七、风险评估与应对
| 风险类型 | 描述 | 应对方案 |
|---|---|---|
| 数据质量问题 | 爬取数据存在缺失或乱码 | 增加数据清洗规则,人工校验关键字段 |
| 模型性能不足 | 情感分类准确率低于预期 | 尝试集成学习(如BERT+LSTM)或增加训练数据 |
| 系统交互卡顿 | 可视化页面加载缓慢 | 优化D3.js渲染逻辑,采用分页加载 |
八、预期成果
- 知识图谱:覆盖全朝代50万首诗词,支持复杂查询(如“查找所有表达‘思乡’情感的宋代诗词”)。
- 情感分析模型:准确率≥85%,支持8类情感细分与强度分级。
- 可视化系统:提供知识图谱探索、情感时空分析、意象情感关联等交互功能,支持导出分析报告。
任务书负责人签字:________________
日期:________________
运行截图
推荐项目
上万套Java、Python、大数据、机器学习、深度学习等高级选题(源码+lw+部署文档+讲解等)
项目案例










优势
1-项目均为博主学习开发自研,适合新手入门和学习使用
2-所有源码均一手开发,不是模版!不容易跟班里人重复!

🍅✌感兴趣的可以先收藏起来,点赞关注不迷路,想学习更多项目可以查看主页,大家在毕设选题,项目代码以及论文编写等相关问题都可以给我留言咨询,希望可以帮助同学们顺利毕业!🍅✌
源码获取方式
🍅由于篇幅限制,获取完整文章或源码、代做项目的,拉到文章底部即可看到个人联系方式。🍅
点赞、收藏、关注,不迷路,下方查看👇🏻获取联系方式👇🏻



















1万+

被折叠的 条评论
为什么被折叠?



