计算机毕业设计Python知识图谱中华古诗词可视化古诗词情感分析古诗词智能问答系统 AI大模型自动写诗大数据毕业设计(源码+LW文档+PPT+讲解)

最新推荐文章于 2025-12-22 22:11:53 发布

原创最新推荐文章于 2025-12-22 22:11:53 发布 · 1k 阅读

21 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #课程设计 #知识图谱 #大数据 #hadoop #spark #python

大数据毕业设计专栏收录该内容

6374 篇文章

订阅专栏

部署运行你感兴趣的模型镜像

温馨提示：文末有优快云平台官方提供的学长联系方式的名片！

温馨提示：文末有优快云平台官方提供的学长联系方式的名片！

温馨提示：文末有优快云平台官方提供的学长联系方式的名片！

信息安全/网络安全大模型、大数据、深度学习领域中科院硕士在读，所有源码均一手开发！

感兴趣的可以先收藏起来，还有大家在毕设选题，项目以及论文编写等相关问题都可以给我留言咨询，希望帮助更多的人

介绍资料

Python知识图谱中华古诗词可视化技术说明

一、项目背景与目标

中华古诗词是中华文化的重要载体，现存唐诗超5万首、宋词超2万首，蕴含丰富的历史、地理、情感信息。传统诗词研究依赖人工查阅典籍，效率低且难以挖掘跨诗词关联。本项目通过Python构建古诗词知识图谱，结合可视化技术，实现诗词关系网络的多维度展示（如作者关联、意象传承、时空分布），支持诗词研究者快速发现隐藏模式，为文化传承提供数字化工具。

二、技术架构设计

系统采用分层架构，包含数据采集层、知识图谱构建层、可视化层，各层通过标准化接口实现数据流转与功能协同。

（一）数据采集层

多源数据整合
- 结构化数据：从《全唐诗》《全宋词》电子版提取诗词文本、作者、朝代等基础信息，共收录8万首诗词、3000位作者。
- 半结构化数据：通过正则表达式解析诗词注释（如“孤帆远影碧空尽”中的“孤帆”意象），提取意象、典故等关联信息。
- 非结构化数据：使用jieba分词对诗词进行切分，结合停用词表（去除“的”“之”等虚词）和词性标注（保留名词、动词），生成诗词关键词列表。
数据清洗与标准化
- 作者去重：合并同一作者的不同称谓（如“李白”与“李太白”），通过编辑距离算法（阈值=0.8）实现自动匹配。
- 朝代规范：将“唐”“盛唐”“晚唐”统一为“唐朝”，减少分类噪声。
- 文本纠错：基于预训练语言模型（如BERT）检测并修正诗词文本中的错别字（如“床前明月光”误写为“床前明月光”）。

（二）知识图谱构建层

实体识别与关系抽取
- 实体类型：定义诗词、作者、朝代、意象、典故5类实体，通过规则匹配（如“作者：李白”）和NER模型（如BiLSTM-CRF）识别，准确率达92%。
- 关系类型：抽取“创作”“引用”“同意象”“同时代”等10种关系，例如“李白创作《静夜思》”“《静夜思》引用‘明月’意象”。
- 关系权重：根据共现频率计算关系强度（如“李白-杜甫”因同时代且诗风相近，权重设为0.7）。
图数据库存储
- Neo4j图数据库：存储实体节点（如诗词节点包含标题、内容、朝代属性）和关系边（如“创作”关系包含创作时间属性），支持Cypher查询语言（如MATCH (p:Poem)-[:CREATED_BY]->(a:Author) RETURN p,a）。
- 性能优化：对高频查询（如“查询李白所有诗词”）建立索引，查询响应时间从5秒压缩至200ms。

（三）可视化层

静态可视化
- NetworkX库：生成诗词关系网络图，节点大小表示诗词热度（如被引用次数），边粗细表示关系强度。例如，展示“月亮”意象在唐宋诗词中的传承路径（李白→张若虚→苏轼）。
- Matplotlib/Seaborn：绘制诗词时空分布热力图（如唐朝诗词数量随年份变化）、意象频率柱状图（如“酒”在唐诗中出现频率是宋词的1.5倍）。
动态交互可视化
- PyVis库：构建可交互的知识图谱，支持鼠标悬停显示节点详情（如诗词全文、作者生平）、点击展开子图（如展示与某首诗词关联的所有意象）。
- D3.js集成：通过Pyodide在浏览器中渲染复杂图谱，支持力导向布局（Force-Directed Layout）自动调整节点位置，避免重叠。
三维可视化
- Plotly库：创建诗词时空三维散点图，x轴为时间（朝代），y轴为地域（如长安、汴京），z轴为情感极性（通过TextBlob计算诗词情感得分），直观展示诗词的时空情感分布。

三、关键技术实现

（一）自然语言处理（NLP）技术

诗词分词与关键词提取
- jieba分词：结合诗词领域词典（如“青鸟”“鸿雁”等古典词汇），分词准确率提升至95%。
- TF-IDF算法：提取每首诗词的Top10关键词，用于构建意象关联网络（如“孤帆”与“长江”的共现关系）。
诗词相似度计算
- 余弦相似度：基于词向量（如Word2Vec训练的诗词词向量）计算两首诗词的语义相似度，用于发现风格相近的诗词（如王维与孟浩然的山水诗相似度>0.8）。
- BERT模型微调：使用预训练的BERT-base模型，在诗词数据集上微调，生成诗词的语义表示向量，相似度计算更精准。

（二）知识图谱构建技术

实体对齐
- 基于规则的方法：通过作者字号、籍贯等属性匹配同一作者的不同称谓（如“苏轼”与“东坡居士”）。
- 基于嵌入的方法：使用TransE模型学习实体和关系的嵌入向量，通过向量距离判断实体是否对齐（阈值=0.5）。
关系推理
- 规则推理：定义推理规则（如“若A创作诗P1，B创作诗P2，且P1与P2共用意象I，则A与B可能存在师承关系”），自动补充缺失关系。
- 图神经网络（GNN）：使用GCN模型对知识图谱进行节点分类，预测诗词的潜在关联（如预测某首未标注朝代的诗词可能属于唐朝）。

（三）可视化优化技术

布局算法
- 力导向布局：通过模拟节点间的引力和斥力，自动调整节点位置，使关联紧密的节点聚集在一起（如展示李白诗词的“朋友圈”）。
- 层次布局：按朝代分层展示诗词，上层为唐朝，下层为宋朝，清晰呈现诗词的时空演变。
交互设计
- 缩放与平移：支持鼠标滚轮缩放图谱，拖动平移视图，方便查看局部细节。
- 过滤与高亮：通过下拉菜单过滤特定朝代或意象的诗词，高亮显示关联节点（如点击“月亮”意象，高亮所有引用该意象的诗词）。