这里主要是基于规则的新闻地域提取方法,这里简要记录一下思路。
首先我们拥有了地域信息数据库,并且标注了省市的layer层信息。主要思路是利用nlp库,分词得到标有地名属性词,在于地域数据库匹配。
第一步,提取正文分词得到标注为地名的词语。
第二步,匹配地域数据库。
按照数据库的分类有
省:一级
市:二级
该博客介绍了基于规则的新闻地域信息抽取方法。通过利用NLP库进行分词,匹配预设的地域数据库,实现了对省、市、区县三级地域的提取。算法包括两种情况:单一地域和多地域。在实际应用中,使用FudanNLP库,取得了超过90%的正确率。
1094
1142
3767
4718
1845
5002