工作需要,利用中国省、市、乡等基本行政规划以及基本的地址分词字符如街、道之类的,以正则表达式分词的方式做了一个相似地址的判断程序。该程序首先利用正则表达式对地址进行分词,将部分常见的无法用于区分的字段删除,如街、道、号等,将分词后的结果放到gensim进行文本相似度判断。
大致的判断结果如下:
原始地址 |
相似地址列表 |
上海市奉贤区南桥镇光明工业园区 |
'上海市奉贤区南桥镇工业区', '上海市奉贤工业园区', '上海市奉贤区南桥镇', '上海市奉贤区南桥镇', '上海奉贤区南桥镇', '上海市奉贤区光明工业园区', '上海奉贤光明工业园区' |
浦东新区龙阳路2345号 |
'浦东新区龙阳路2345号', '浦东新区龙阳路2345号', '上海浦东新区龙阳路2345号)', '上海市浦东新区龙阳路2345号', '上海市浦东新区龙阳路2345号', '上海浦东新区龙阳路2345号', '中国上海市浦东新区龙阳路2345号', '上海龙阳路2345号', '上海市浦东新区龙阳路', '上海市浦东新区工业园区', '上海市闵行区浦东' |
华徐公路685 |
'上海市青浦区华徐公路685号', '上海市青浦区华徐公路685号E通世界商务园南区', '上海市华徐公路888号', '上海华徐公路888号', '上海市青浦区华徐公路888号', '上海市青浦区华徐公路888号', '上海市青浦区华徐公路888号 |