新闻中文本地域信息标签的抽取

最新推荐文章于 2024-06-24 09:35:50 发布

原创

最新推荐文章于 2024-06-24 09:35:50 发布 · 3.3k 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

该博客介绍了基于规则的新闻地域信息抽取方法。通过利用NLP库进行分词，匹配预设的地域数据库，实现了对省、市、区县三级地域的提取。算法包括两种情况：单一地域和多地域。在实际应用中，使用FudanNLP库，取得了超过90%的正确率。

这里主要是基于规则的新闻地域提取方法，这里简要记录一下思路。

首先我们拥有了地域信息数据库，并且标注了省市的layer层信息。主要思路是利用nlp库，分词得到标有地名属性词，在于地域数据库匹配。

第一步，提取正文分词得到标注为地名的词语。

第二步，匹配地域数据库。

按照数据库的分类有

省：一级

市：二级

最低0.47元/天解锁文章

评论 2

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

查看更多评论

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。