模糊匹配(学习一)
背景:在预处理的过程中,要将基础疾病按照ICD-10的标准,对应转换成代码,数据量大概2W+,尝试利用R语言进行匹配。遇到的问题:基础疾病选用的是医生的诊断,不规范的写法导致匹配困难。尝试解决一:python的批量匹配,用的是jieba库,但是匹配效果不好,可以说很差,不知道哪里的问题,刚开始摸索python,后续待解决。from gensim import corpora, similarities, modelsimport jiebaimport pandas as pdfind
原创
2022-04-08 19:28:41 ·
1157 阅读 ·
0 评论