关于相似地址识别的Python代码

工作需要,利用中国省、市、乡等基本行政规划以及基本的地址分词字符如街、道之类的,以正则表达式分词的方式做了一个相似地址的判断程序。该程序首先利用正则表达式对地址进行分词,将部分常见的无法用于区分的字段删除,如街、道、号等,将分词后的结果放到gensim进行文本相似度判断。

大致的判断结果如下:

原始地址

相似地址列表

上海市奉贤区南桥镇光明工业园区

'上海市奉贤区南桥镇工业区', '上海市奉贤工业园区', '上海市奉贤区南桥镇', '上海市奉贤区南桥镇', '上海奉贤区南桥镇', '上海市奉贤区光明工业园区', '上海奉贤光明工业园区'

浦东新区龙阳路2345号

'浦东新区龙阳路2345号', '浦东新区龙阳路2345号', '上海浦东新区龙阳路2345号)', '上海市浦东新区龙阳路2345号', '上海市浦东新区龙阳路2345号', '上海浦东新区龙阳路2345号', '中国上海市浦东新区龙阳路2345号', '上海龙阳路2345号', '上海市浦东新区龙阳路', '上海市浦东新区工业园区', '上海市闵行区浦东'

华徐公路685

'上海市青浦区华徐公路685号', '上海市青浦区华徐公路685号E通世界商务园南区', '上海市华徐公路888号', '上海华徐公路888号', '上海市青浦区华徐公路888号', '上海市青浦区华徐公路888号', '上海市青浦区华徐公路888号

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值