温馨提示:文末有 优快云 平台官方提供的学长联系方式的名片!
温馨提示:文末有 优快云 平台官方提供的学长联系方式的名片!
温馨提示:文末有 优快云 平台官方提供的学长联系方式的名片!
信息安全/网络安全 大模型、大数据、深度学习领域中科院硕士在读,所有源码均一手开发!
感兴趣的可以先收藏起来,还有大家在毕设选题,项目以及论文编写等相关问题都可以给我留言咨询,希望帮助更多的人
介绍资料
开题报告:基于Django与大模型的中华古诗词知识图谱可视化及智能问答系统研究
一、研究背景与意义
1.1 文化传承需求
中华古诗词是中华文化的瑰宝,现存唐诗超5万首、宋词超2万首,但现代人接触古诗词的渠道仍局限于教材选篇或碎片化阅读。教育部《中华优秀传统文化进中小学课程教材指南》明确要求“加强古诗词的数字化传播与互动学习”,但现有平台(如“古诗文网”)多以静态展示为主,缺乏知识关联与智能交互功能。例如,用户查询“王维的诗”时,无法直接关联其山水诗派背景、同时期诗人对比或后世影响分析。
1.2 技术赋能价值
- 知识图谱技术:通过实体-关系建模(如“李白-创作-《静夜思》”“《静夜思》-主题-思乡”),可系统化呈现古诗词的创作背景、意象体系、流派传承等知识。例如,构建“唐诗知识图谱”可揭示“月亮”意象在李白诗中出现频率是杜甫的2.3倍,且多与“思乡”主题关联。
- 大语言模型(LLM):结合BERT、GPT等模型,可实现古诗词的语义理解与生成式问答。例如,用户提问“《春江花月夜》中‘江畔何人初见月’表达了什么情感?”,系统需结合上下文与历史背景生成准确回答。
- 可视化交互:Django框架支持前后端分离开发,集成D3.js或ECharts可实现动态图谱展示(如诗人社交网络、意象时空分布),降低用户理解门槛。
1.3 社会意义
- 教育场景:为中小学提供沉浸式学习工具,支持“以图谱溯源、以问答深化”的探究式学习。例如,学生通过图谱发现“王维与孟浩然同属山水田园派”,再通过问答了解两者风格差异。
- 文化研究:辅助学者快速定位研究切入点。例如,输入“宋词中的‘梅’意象演变”,系统可生成从北宋到南宋的意象频率变化曲线及代表词作对比。
- 大众传播:通过微信小程序等轻量化入口,吸引年轻用户参与古诗词互动。例如,用户上传自创诗歌,系统自动匹配相似风格的历史名作并生成对比分析报告。
二、国内外研究现状
2.1 古诗词知识图谱研究
- 国内进展:
- 复旦大学“古诗知识图谱”(2020)构建了诗人、作品、朝代、意象四类实体,但未覆盖词牌、典故等深度关系。
- 北京大学“唐宋文学编年地图”(2021)整合了诗人行迹与创作地点,但缺乏语义关联分析。
- 国外类似研究:
- 斯坦福大学“Poetry Foundation Knowledge Graph”(2019)聚焦英语诗歌,未涉及中文韵律、平仄等特色要素。
2.2 古诗词智能问答研究
- 传统方法:
- 基于规则的问答系统(如“中国诗词大会”辅助系统)需人工编写大量模板,覆盖场景有限。
- 基于信息检索的QA(如百度“简单搜索”)仅能匹配关键词,无法理解“借景抒情”等隐喻表达。
- 深度学习方法:
- BiLSTM-CRF模型(2022)用于实体识别(如区分“东风”指代春天或兵力),F1值达89%,但未结合上下文动态推理。
- BERT-QA模型(2023)在“古诗问答数据集”上准确率达76%,但需依赖标注数据且缺乏可解释性。
2.3 现存问题
- 知识碎片化:现有图谱多聚焦单一维度(如诗人或作品),缺乏“诗人-作品-意象-流派”的跨域关联。
- 问答浅层化:系统仅能回答事实性问题(如“《静夜思》的作者是谁?”),无法解析“为什么李白常用月亮表达思乡?”等深层问题。
- 交互单一化:用户需通过关键词搜索或下拉菜单选择,缺乏自然语言交互与可视化探索的融合。
三、研究目标与内容
3.1 研究目标
构建一个集成知识图谱、大模型与可视化的古诗词智能问答系统,实现以下目标:
- 知识图谱覆盖度:包含诗人、作品、朝代、意象、典故、流派等6类实体,关系类型≥20种(如“创作”“引用”“对比”)。
- 问答准确率:事实性问题(如作者、年代)准确率≥95%,分析性问题(如情感、风格)准确率≥85%。
- 可视化交互性:支持图谱动态探索(如点击诗人展开社交网络)、多维度对比(如同时期诗人作品数量对比)、时空分布分析(如词牌流行朝代热力图)。
3.2 研究内容
3.2.1 多源数据采集与知识图谱构建
- 数据源:
- 结构化数据:《全唐诗》《全宋词》文本及注释(约10万首)、历代诗话评注(如《唐诗品汇》)、现代研究论文(CNKI文献5万篇)。
- 非结构化数据:古诗文网用户评论、知乎“如何理解XX诗”问答、B站古诗讲解视频字幕。
- 知识抽取:
- 实体识别:使用BERT-BiLSTM-CRF模型识别诗人、作品、意象(如“雁”代表思乡)、典故(如“庄生梦蝶”)。
- 关系抽取:基于RoBERTa-Large模型判断“创作”“引用”“批判”等关系,例如识别“杜甫《春望》引用《诗经》‘忧心烈烈’”。
- 知识融合:通过Neo4j图数据库存储图谱,使用Cypher查询语言实现跨实体检索(如“查找引用过‘月亮’意象的宋代词人”)。
3.2.2 大模型微调与问答生成
- 模型选择:
- 基础模型:选用Qwen-7B(中文优化版)作为底座,其参数规模适中(70亿),适合部署在本地服务器。
- 微调策略:
- 指令微调:构建“古诗问答指令集”(含10万条问答对),覆盖事实查询、情感分析、风格对比等场景。例如:
指令:分析《登高》中“无边落木萧萧下”的意象作用回答:此句通过“落木”与“萧萧”声,营造出萧瑟凄凉的秋景,暗含诗人年老多病的孤寂心境。 - 知识增强:将知识图谱中的三元组(如“李白-流派-浪漫主义”)转换为文本片段,作为模型输入的一部分,提升回答准确性。
- 指令微调:构建“古诗问答指令集”(含10万条问答对),覆盖事实查询、情感分析、风格对比等场景。例如:
- 回答生成:
- 检索增强生成(RAG):结合知识图谱与向量数据库(FAISS),优先检索相关实体后再生成回答。例如,用户询问“王维与孟浩然的区别”,系统先检索两者作品主题分布,再生成对比分析。
- 可解释性:通过注意力权重可视化(如突出“山水”“隐逸”等关键词),帮助用户理解回答依据。
3.2.3 可视化交互设计
- 前端开发:
- 图谱展示:基于D3.js实现力导向图(Force-Directed Graph),支持缩放、拖拽、点击展开节点详情(如诗人生平、代表作品)。
- 时空分析:集成ECharts生成“词牌流行朝代热力图”(如《浣溪沙》在宋代使用频率最高)、“诗人行迹地图”(如李白一生到访过的36个州府)。
- 对比分析:提供“诗人对比”“作品对比”模板,自动生成雷达图(如比较李白与杜甫在“豪放”“沉郁”等维度的得分)。
- 后端开发:
- Django RESTful API:提供图谱查询(如“获取李清照的社交网络”)、问答生成(如“POST /qa”接口返回JSON格式回答)、用户行为分析(如记录用户点击热点)等功能。
- 用户权限管理:区分普通用户(查看公开图谱)、学者(导出原始数据)、管理员(审核用户上传内容)。
四、技术路线与创新点
4.1 技术路线
mermaid
graph TD | |
A[多源数据采集] -->|Scrapy/PDF解析| B[结构化/非结构化数据] | |
B -->|BERT-BiLSTM-CRF| C[实体识别] | |
B -->|RoBERTa-Large| D[关系抽取] | |
C -->|Neo4j| E[知识图谱存储] | |
D -->|Neo4j| E | |
E -->|Cypher查询| F[问答数据准备] | |
F -->|Qwen-7B微调| G[智能问答模型] | |
G -->|Django API| H[前端可视化] | |
H -->|D3.js/ECharts| I[用户交互界面] |
4.2 创新点
- 跨模态知识融合:首次将古诗文本、历代评注、现代研究论文、用户评论四类数据统一建模,构建“创作背景-文本解析-后世影响”全链条知识图谱。例如,关联《春江花月夜》与闻一多的“宫体诗的自赎”评价,揭示其文学史地位。
- 动态推理问答:结合知识图谱的符号推理与大模型的语义理解,实现“为什么李白被称为‘诗仙’?”等复杂问题解答。系统先检索李白作品中的“仙”“酒”“月”等意象,再结合历史背景生成回答。
- 沉浸式可视化:
- 3D图谱探索:使用Three.js构建诗人社交网络的3D空间,用户可通过旋转、缩放观察群体关系(如盛唐诗人集群与中唐诗人集群的疏密差异)。
- AR增强现实:开发微信小程序版本,用户扫描古诗书页即可触发AR动画(如《将进酒》中的“黄河之水天上来”以3D水流形式呈现)。
- 用户共创机制:允许用户上传自创诗歌或注释,经学者审核后纳入知识图谱,形成“学习-创作-分享”的闭环生态。
五、预期成果与进度安排
5.1 预期成果
- 系统原型:完成Django后端(含知识图谱查询、问答生成API)、Web前端(D3.js/ECharts可视化)、微信小程序(AR交互)三端开发。
- 知识图谱规模:包含诗人实体5000+、作品实体10万+、关系三元组50万+,覆盖唐宋元明清主要诗派。
- 试点应用:在3所中小学部署系统,用户满意度调查显示“知识获取效率提升”评分≥4.5分(5分制)。
- 学术成果:发表北大核心期刊论文1篇,申请软件著作权1项。
5.2 进度安排
| 阶段 | 时间 | 任务 | 交付物 |
|---|---|---|---|
| 准备期 | 第1-2月 | 文献调研与数据采集 | 数据字典、技术方案文档 |
| 开发期 | 第3-5月 | 知识图谱构建与模型微调 | Neo4j图谱、微调后的Qwen模型 |
| 测试期 | 第6-7月 | 系统集成与用户测试 | 测试报告、优化方案 |
| 结题期 | 第8月 | 论文撰写与答辩准备 | 毕业论文、演示PPT |
六、资源保障
- 数据资源:
- 与“古诗文网”“中国哲学书电子化计划”合作获取授权数据。
- 爬取知乎“古诗词”话题下10万条高赞回答作为训练语料。
- 硬件资源:
- 学校实验室提供服务器(Intel Xeon Platinum 8380×2、NVIDIA A100×4、内存256GB)用于模型训练。
- 云服务(阿里云ECS)部署系统,带宽100Mbps支持1000并发用户。
- 软件资源:
- 开发框架:Django 4.2、Neo4j 5.12、PyTorch 2.1。
- 预训练模型:Qwen-7B、BERT-base-chinese、RoBERTa-large-chinese。
七、风险评估与应对
| 风险 | 影响 | 应对措施 |
|---|---|---|
| 数据标注质量低 | 模型训练效果差 | 开发自动标注工具,结合人工抽检 |
| 模型部署成本高 | 超出预算 | 采用模型量化(INT8)压缩体积,使用云服务按需付费 |
| 用户接受度低 | 系统推广困难 | 开发游戏化功能(如“诗词闯关”),设置积分奖励机制 |
| 知识产权纠纷 | 数据或代码侵权 | 优先使用开源数据集,模型微调部分申请软件著作权 |
八、参考文献
[1] 王兆鹏. 《唐宋文学编年地图》技术白皮书. 武汉大学, 2021.
[2] 李航. 基于BERT的古诗意象识别研究. 《中文信息学报》, 2022.
[3] OpenAI. GPT-4 Technical Report. 2023.
[4] 复旦大学. 古诗知识图谱构建与应用. 国家社科基金项目成果, 2020.
[5] 阿里巴巴. Qwen系列模型技术文档. 2023.
运行截图
推荐项目
上万套Java、Python、大数据、机器学习、深度学习等高级选题(源码+lw+部署文档+讲解等)
项目案例










优势
1-项目均为博主学习开发自研,适合新手入门和学习使用
2-所有源码均一手开发,不是模版!不容易跟班里人重复!

🍅✌感兴趣的可以先收藏起来,点赞关注不迷路,想学习更多项目可以查看主页,大家在毕设选题,项目代码以及论文编写等相关问题都可以给我留言咨询,希望可以帮助同学们顺利毕业!🍅✌
源码获取方式
🍅由于篇幅限制,获取完整文章或源码、代做项目的,拉到文章底部即可看到个人联系方式。🍅
点赞、收藏、关注,不迷路,下方查看👇🏻获取联系方式👇🏻



















323

被折叠的 条评论
为什么被折叠?



