从孟加拉语在线报纸文章中提取和可视化犯罪数据的系统
1. 引言
随着互联网的普及,每天都会产生大量的数据。孟加拉语报纸也纷纷推出电子版,网站上信息丰富,包含犯罪、政治、事故和体育等有价值的内容。然而,手动收集和整理这些信息既繁琐又不现实,搜索引擎也无法直接提供特定犯罪趋势等深入洞察。
因此,开发一个能自动从孟加拉语报纸文章中提取信息并可视化的系统具有重要意义。该系统专注于提取公开但非结构化的犯罪信息,特别是犯罪地点数据,以帮助公众了解犯罪活动趋势和犯罪高发地区,辅助决策。
2. 相关工作
在犯罪信息提取和自然语言处理(NLP)工具方面,已有一些相关研究:
- Peng & McCallum 使用条件随机场(CRFs)从研究论文中提取信息。
- Kim & Gil 基于 TF - IDF 值使用 K - means 聚类算法对研究论文进行分类。
- Bhakta 等人对孟加拉语新闻文章进行分类以生成标签。
- Pirana 等人研究了三种深度学习方法(CNN、RCNN、LSTM)对土耳其文本进行分类。
- Alam 等人使用 CNN 对孟加拉语评论进行分类。
- Rahem & Omar 尝试基于规则提取毒品走私相关犯罪信息。
- Chowdhury 等人通过分析 Twitter 上的标题情感进行犯罪监测。
- Sulieman 对沙特在线报纸的犯罪新闻报道进行内容分析。
- Arulanandam 等人展示了从三个不同国家的报纸文章中提取盗窃相关犯罪信息的可能性。
- Hassan & Rahman 分析孟加拉国的英文报纸文章
超级会员免费看
订阅专栏 解锁全文
3万+

被折叠的 条评论
为什么被折叠?



