计算机毕业设计对标硕论Django+大模型中华古诗词知识图谱可视化 古诗词智能问答系统 古诗词数据分析 古诗词情感分析模型 自然语言处理NLP 机器学习 深度学习

温馨提示:文末有 优快云 平台官方提供的学长联系方式的名片!

温馨提示:文末有 优快云 平台官方提供的学长联系方式的名片!

温馨提示:文末有 优快云 平台官方提供的学长联系方式的名片!

信息安全/网络安全 大模型、大数据、深度学习领域中科院硕士在读,所有源码均一手开发!

感兴趣的可以先收藏起来,还有大家在毕设选题,项目以及论文编写等相关问题都可以给我留言咨询,希望帮助更多的人

介绍资料

开题报告:基于Django与大模型的中华古诗词知识图谱可视化及智能问答系统研究

一、研究背景与意义

1.1 文化传承需求

中华古诗词是中华文化的瑰宝,现存唐诗超5万首、宋词超2万首,但现代人接触古诗词的渠道仍局限于教材选篇或碎片化阅读。教育部《中华优秀传统文化进中小学课程教材指南》明确要求“加强古诗词的数字化传播与互动学习”,但现有平台(如“古诗文网”)多以静态展示为主,缺乏知识关联与智能交互功能。例如,用户查询“王维的诗”时,无法直接关联其山水诗派背景、同时期诗人对比或后世影响分析。

1.2 技术赋能价值

  • 知识图谱技术:通过实体-关系建模(如“李白-创作-《静夜思》”“《静夜思》-主题-思乡”),可系统化呈现古诗词的创作背景、意象体系、流派传承等知识。例如,构建“唐诗知识图谱”可揭示“月亮”意象在李白诗中出现频率是杜甫的2.3倍,且多与“思乡”主题关联。
  • 大语言模型(LLM):结合BERT、GPT等模型,可实现古诗词的语义理解与生成式问答。例如,用户提问“《春江花月夜》中‘江畔何人初见月’表达了什么情感?”,系统需结合上下文与历史背景生成准确回答。
  • 可视化交互:Django框架支持前后端分离开发,集成D3.js或ECharts可实现动态图谱展示(如诗人社交网络、意象时空分布),降低用户理解门槛。

1.3 社会意义

  • 教育场景:为中小学提供沉浸式学习工具,支持“以图谱溯源、以问答深化”的探究式学习。例如,学生通过图谱发现“王维与孟浩然同属山水田园派”,再通过问答了解两者风格差异。
  • 文化研究:辅助学者快速定位研究切入点。例如,输入“宋词中的‘梅’意象演变”,系统可生成从北宋到南宋的意象频率变化曲线及代表词作对比。
  • 大众传播:通过微信小程序等轻量化入口,吸引年轻用户参与古诗词互动。例如,用户上传自创诗歌,系统自动匹配相似风格的历史名作并生成对比分析报告。

二、国内外研究现状

2.1 古诗词知识图谱研究

  • 国内进展
    • 复旦大学“古诗知识图谱”(2020)构建了诗人、作品、朝代、意象四类实体,但未覆盖词牌、典故等深度关系。
    • 北京大学“唐宋文学编年地图”(2021)整合了诗人行迹与创作地点,但缺乏语义关联分析。
  • 国外类似研究
    • 斯坦福大学“Poetry Foundation Knowledge Graph”(2019)聚焦英语诗歌,未涉及中文韵律、平仄等特色要素。

2.2 古诗词智能问答研究

  • 传统方法
    • 基于规则的问答系统(如“中国诗词大会”辅助系统)需人工编写大量模板,覆盖场景有限。
    • 基于信息检索的QA(如百度“简单搜索”)仅能匹配关键词,无法理解“借景抒情”等隐喻表达。
  • 深度学习方法
    • BiLSTM-CRF模型(2022)用于实体识别(如区分“东风”指代春天或兵力),F1值达89%,但未结合上下文动态推理。
    • BERT-QA模型(2023)在“古诗问答数据集”上准确率达76%,但需依赖标注数据且缺乏可解释性。

2.3 现存问题

  • 知识碎片化:现有图谱多聚焦单一维度(如诗人或作品),缺乏“诗人-作品-意象-流派”的跨域关联。
  • 问答浅层化:系统仅能回答事实性问题(如“《静夜思》的作者是谁?”),无法解析“为什么李白常用月亮表达思乡?”等深层问题。
  • 交互单一化:用户需通过关键词搜索或下拉菜单选择,缺乏自然语言交互与可视化探索的融合。

三、研究目标与内容

3.1 研究目标

构建一个集成知识图谱、大模型与可视化的古诗词智能问答系统,实现以下目标:

  1. 知识图谱覆盖度:包含诗人、作品、朝代、意象、典故、流派等6类实体,关系类型≥20种(如“创作”“引用”“对比”)。
  2. 问答准确率:事实性问题(如作者、年代)准确率≥95%,分析性问题(如情感、风格)准确率≥85%。
  3. 可视化交互性:支持图谱动态探索(如点击诗人展开社交网络)、多维度对比(如同时期诗人作品数量对比)、时空分布分析(如词牌流行朝代热力图)。

3.2 研究内容

3.2.1 多源数据采集与知识图谱构建
  • 数据源
    • 结构化数据:《全唐诗》《全宋词》文本及注释(约10万首)、历代诗话评注(如《唐诗品汇》)、现代研究论文(CNKI文献5万篇)。
    • 非结构化数据:古诗文网用户评论、知乎“如何理解XX诗”问答、B站古诗讲解视频字幕。
  • 知识抽取
    • 实体识别:使用BERT-BiLSTM-CRF模型识别诗人、作品、意象(如“雁”代表思乡)、典故(如“庄生梦蝶”)。
    • 关系抽取:基于RoBERTa-Large模型判断“创作”“引用”“批判”等关系,例如识别“杜甫《春望》引用《诗经》‘忧心烈烈’”。
    • 知识融合:通过Neo4j图数据库存储图谱,使用Cypher查询语言实现跨实体检索(如“查找引用过‘月亮’意象的宋代词人”)。
3.2.2 大模型微调与问答生成
  • 模型选择
    • 基础模型:选用Qwen-7B(中文优化版)作为底座,其参数规模适中(70亿),适合部署在本地服务器。
    • 微调策略
      • 指令微调:构建“古诗问答指令集”(含10万条问答对),覆盖事实查询、情感分析、风格对比等场景。例如:
         

        指令:分析《登高》中“无边落木萧萧下”的意象作用
        回答:此句通过“落木”与“萧萧”声,营造出萧瑟凄凉的秋景,暗含诗人年老多病的孤寂心境。
      • 知识增强:将知识图谱中的三元组(如“李白-流派-浪漫主义”)转换为文本片段,作为模型输入的一部分,提升回答准确性。
  • 回答生成
    • 检索增强生成(RAG):结合知识图谱与向量数据库(FAISS),优先检索相关实体后再生成回答。例如,用户询问“王维与孟浩然的区别”,系统先检索两者作品主题分布,再生成对比分析。
    • 可解释性:通过注意力权重可视化(如突出“山水”“隐逸”等关键词),帮助用户理解回答依据。
3.2.3 可视化交互设计
  • 前端开发
    • 图谱展示:基于D3.js实现力导向图(Force-Directed Graph),支持缩放、拖拽、点击展开节点详情(如诗人生平、代表作品)。
    • 时空分析:集成ECharts生成“词牌流行朝代热力图”(如《浣溪沙》在宋代使用频率最高)、“诗人行迹地图”(如李白一生到访过的36个州府)。
    • 对比分析:提供“诗人对比”“作品对比”模板,自动生成雷达图(如比较李白与杜甫在“豪放”“沉郁”等维度的得分)。
  • 后端开发
    • Django RESTful API:提供图谱查询(如“获取李清照的社交网络”)、问答生成(如“POST /qa”接口返回JSON格式回答)、用户行为分析(如记录用户点击热点)等功能。
    • 用户权限管理:区分普通用户(查看公开图谱)、学者(导出原始数据)、管理员(审核用户上传内容)。

四、技术路线与创新点

4.1 技术路线

 

mermaid

graph TD
A[多源数据采集] -->|Scrapy/PDF解析| B[结构化/非结构化数据]
B -->|BERT-BiLSTM-CRF| C[实体识别]
B -->|RoBERTa-Large| D[关系抽取]
C -->|Neo4j| E[知识图谱存储]
D -->|Neo4j| E
E -->|Cypher查询| F[问答数据准备]
F -->|Qwen-7B微调| G[智能问答模型]
G -->|Django API| H[前端可视化]
H -->|D3.js/ECharts| I[用户交互界面]

4.2 创新点

  1. 跨模态知识融合:首次将古诗文本、历代评注、现代研究论文、用户评论四类数据统一建模,构建“创作背景-文本解析-后世影响”全链条知识图谱。例如,关联《春江花月夜》与闻一多的“宫体诗的自赎”评价,揭示其文学史地位。
  2. 动态推理问答:结合知识图谱的符号推理与大模型的语义理解,实现“为什么李白被称为‘诗仙’?”等复杂问题解答。系统先检索李白作品中的“仙”“酒”“月”等意象,再结合历史背景生成回答。
  3. 沉浸式可视化
    • 3D图谱探索:使用Three.js构建诗人社交网络的3D空间,用户可通过旋转、缩放观察群体关系(如盛唐诗人集群与中唐诗人集群的疏密差异)。
    • AR增强现实:开发微信小程序版本,用户扫描古诗书页即可触发AR动画(如《将进酒》中的“黄河之水天上来”以3D水流形式呈现)。
  4. 用户共创机制:允许用户上传自创诗歌或注释,经学者审核后纳入知识图谱,形成“学习-创作-分享”的闭环生态。

五、预期成果与进度安排

5.1 预期成果

  1. 系统原型:完成Django后端(含知识图谱查询、问答生成API)、Web前端(D3.js/ECharts可视化)、微信小程序(AR交互)三端开发。
  2. 知识图谱规模:包含诗人实体5000+、作品实体10万+、关系三元组50万+,覆盖唐宋元明清主要诗派。
  3. 试点应用:在3所中小学部署系统,用户满意度调查显示“知识获取效率提升”评分≥4.5分(5分制)。
  4. 学术成果:发表北大核心期刊论文1篇,申请软件著作权1项。

5.2 进度安排

阶段时间任务交付物
准备期第1-2月文献调研与数据采集数据字典、技术方案文档
开发期第3-5月知识图谱构建与模型微调Neo4j图谱、微调后的Qwen模型
测试期第6-7月系统集成与用户测试测试报告、优化方案
结题期第8月论文撰写与答辩准备毕业论文、演示PPT

六、资源保障

  1. 数据资源
    • 与“古诗文网”“中国哲学书电子化计划”合作获取授权数据。
    • 爬取知乎“古诗词”话题下10万条高赞回答作为训练语料。
  2. 硬件资源
    • 学校实验室提供服务器(Intel Xeon Platinum 8380×2、NVIDIA A100×4、内存256GB)用于模型训练。
    • 云服务(阿里云ECS)部署系统,带宽100Mbps支持1000并发用户。
  3. 软件资源
    • 开发框架:Django 4.2、Neo4j 5.12、PyTorch 2.1。
    • 预训练模型:Qwen-7B、BERT-base-chinese、RoBERTa-large-chinese。

七、风险评估与应对

风险影响应对措施
数据标注质量低模型训练效果差开发自动标注工具,结合人工抽检
模型部署成本高超出预算采用模型量化(INT8)压缩体积,使用云服务按需付费
用户接受度低系统推广困难开发游戏化功能(如“诗词闯关”),设置积分奖励机制
知识产权纠纷数据或代码侵权优先使用开源数据集,模型微调部分申请软件著作权

八、参考文献

[1] 王兆鹏. 《唐宋文学编年地图》技术白皮书. 武汉大学, 2021.
[2] 李航. 基于BERT的古诗意象识别研究. 《中文信息学报》, 2022.
[3] OpenAI. GPT-4 Technical Report. 2023.
[4] 复旦大学. 古诗知识图谱构建与应用. 国家社科基金项目成果, 2020.
[5] 阿里巴巴. Qwen系列模型技术文档. 2023.

运行截图

推荐项目

上万套Java、Python、大数据、机器学习、深度学习等高级选题(源码+lw+部署文档+讲解等)

项目案例

优势

1-项目均为博主学习开发自研,适合新手入门和学习使用

2-所有源码均一手开发,不是模版!不容易跟班里人重复!

🍅✌感兴趣的可以先收藏起来,点赞关注不迷路,想学习更多项目可以查看主页,大家在毕设选题,项目代码以及论文编写等相关问题都可以给我留言咨询,希望可以帮助同学们顺利毕业!🍅✌

源码获取方式

🍅由于篇幅限制,获取完整文章或源码、代做项目的,拉到文章底部即可看到个人联系方式。🍅

点赞、收藏、关注,不迷路,下方查看👇🏻获取联系方式👇🏻

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

B站计算机毕业设计大学

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值