中国古代诗词文本挖掘项目

中国古代诗词文本挖掘与分析

最新推荐文章于 2024-10-19 11:05:07 发布

原创

最新推荐文章于 2024-10-19 11:05:07 发布 · 4.5k 阅读

·

5

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#古代诗词 #诗人足迹 #文本挖掘 #语料库

PoemMining项目通过文本挖掘技术对中国古代诗词进行研究，包括诗人画像生成、地点足迹识别、相似诗人聚类和情绪分类等。已构建包含92127首诗词的语料库，并能展示诗人足迹地图，如李白、李清照等。

PoemMining

项目地址：https://github.com/liuhuanyong/PoemMining

Chinese Classic Poem Mining Project including corpus buiding by spyder and content analysis by nlp methods, 基于爬虫与nlp的中国古代诗词文本挖掘项目

项目介绍

中国古代诗词文化无疑是文化瑰宝，如何运用计量语言学方法对古代诗词进行挖掘，将有重要意义，本项目将从以下几个方面进行尝试:
１）基于诗词集合的诗人画像生成
２）基于诗词集合的诗人地点足迹识别
３）基于诗词集合的相似诗人聚类, 基于ATM模型，user2vec模型
４）基于诗词集合的情绪分类，标签自动生成
５）基于诗词集合的意象挖掘

项目结构

项目主要包括两个任务:

古代诗词语料库的构建
基于古代诗词语料库的挖掘

脚本结构

1, poem_spider.py:主要完成古代诗词语料库的构建，选取的是古诗文网 (https://so.gushiwen.org)，结果已经保存至corpus_poem.zip文件当中
2, poem_process.py:主要基于构建起来的古诗词语料库，进行基础的文本分析，根据网站上的用户交互信息，得到古诗词文本本身的外部信息
3, atm_model.py:利用作者－主题模型，对古诗词进行主题分析，最终目的是实现作者主题分布与风格聚类
4, location_mining.py:基于诗人百科生平记事的地点挖掘与可视化，最终最终实现对诗人关联地点的一键生成．

阶段性成果

1, 古代诗词语料库,一共采集到92127首古代诗词
2, 古代诗词外部计量分析结果，结果保存至result

最低0.47元/天解锁文章

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。