流向终端匹配任务提供面向标准行业库的映射能力,需要处理大量不规范的终端名称,其中包含商业公司特定的中英文简称编码、省略连锁总部信息的连锁门店、包含特殊字符的终端名称等等。
如何在任务处理阶段清除无效信息并提取有效的判定信息,通过特定搜索策略寻找到语义匹配的目标终端?这一期极客我们请到的是未名企鹅的高级工程师Bob,来谈一谈未名企鹅所采用的医药流向终端名称精准匹配技术。

医药流向终端名称精准匹配技术
1
流向终端名称匹配系统简介
匹配系统承担流向终端的自动搜索匹配功能,主要分为:
1、 前置清洗
作用:清除干扰信息、统一转换符号
2、 分词
作用:中文医药领域的终端名称分词引擎
3、 渠道、类别、专有名词等成分信息识别
作用:针对分词序列识别短语上下文的成分信息
4、 结构化搜索
作用:使用有效成分在标准行业库进行检索,对结果集进行打分排序,输出备选结果。前置清洗基于常见干扰特征库对噪声信息进行清除,保留有效信息用于后续分析;
中文分词领域有很多工具可以借鉴并且能力都比较强,如结巴、hanLP、pkuseg等,各自实现原理各不相同,有的基于字典匹配的最短路径图搜索,有的使用机器学习实现的序列标注模型,还有的单纯使用分类算法实现的感知机分词器等。业界对分词的研究与实践比较成熟,常规情况下可达95%,突破的难点主要集中在歧义、未登录新词的识别。

而对于未名企鹅的流向终端名称的识别,多数情况下问题得到了简化,原因有三:
-
流向终端名称信息较短,因此上下

本文由未名企鹅高级工程师Bob分享,探讨医药流向终端名称的精准匹配技术。文章介绍了匹配系统的主要功能,包括前置清洗、分词、成分信息识别和结构化搜索。在成分分析中,提出改进方案,如产生式系统和基于CRF的序列标注预测。此外,强调了特征工程在机器学习中的重要性,并展示了未名企鹅标准Live行业库在匹配任务中的优势。
最低0.47元/天 解锁文章
409

被折叠的 条评论
为什么被折叠?



