从孟加拉语在线报纸文章中提取和可视化犯罪数据的系统
1. 引言
如今,互联网的普及使得每天都产生大量的数据。孟加拉语报纸也纷纷推出电子版,网站上信息丰富,包含犯罪、政治、事故和体育等有价值的内容。然而,手动收集和整理这些信息既繁琐又不现实,搜索引擎也难以直接提供特定的洞察。
在孟加拉国,约有30家孟加拉语日报有在线版,报纸是及时且真实信息的良好来源。因此,我们致力于开发一个系统,自动从孟加拉语报纸文章中提取犯罪信息并进行可视化,帮助人们了解犯罪活动趋势和犯罪高发地区。目前,针对孟加拉语报纸文章的信息提取系统尚不存在。
为实现这一目标,我们将任务分解为多个小任务。首先使用基于规则的技术从网络上抓取犯罪相关新闻文章,然后利用机器学习算法提取犯罪位置句子,通过投票系统进行分类,再使用命名实体识别器(NER)提取犯罪位置,最后通过地理编码器获取地理坐标并进行可视化。
2. 相关工作
在犯罪信息提取和自然语言处理(NLP)工具方面,已有许多相关研究:
- Peng & McCallum使用条件随机场(CRFs)从研究论文中提取信息。
- Kim & Gil基于研究论文的TF - IDF值,使用K - 均值聚类算法对研究论文进行分类。
- Bhakta等人对孟加拉语新闻文章进行分类以生成标签。
- Pirana等人研究了卷积神经网络(CNN)、循环卷积神经网络(RCNN)和长短期记忆网络(LSTM)三种深度学习方法对土耳其文本进行分类。
- Alam等人使用CNN对孟加拉语评论进行分类。
- Rahem & Omar尝试使用基于规则的方法提取与毒品走私相关的犯罪信息
超级会员免费看
订阅专栏 解锁全文
3万+

被折叠的 条评论
为什么被折叠?



