专利申请步骤
申请(专利权)人 | 发明人 | 石金普;王慧敏;冯小凯;姚素雅 | |
地址 | 安徽省合肥市高新区望江西路666号讯飞大厦8层-10层 | 邮编 | 230088 |
案例分享
1.一种确定标准数据元的方法,其特征在于,包括:
获得待标准化的目标数据元的至少一个特征信息;
基于所述目标数据元的各特征信息,从标准数据元库中确定出与所述目标数据元匹配的第一数据元集合,所述第一数据元集合包括:所述标准数据元库中与所述目标数据元匹配的各第一标准数据元,以及所述第一标准数据元与所述目标数据元的匹配度;
基于所述目标数据元的各特征信息,从历史对标记录库中确定出所述目标数据元对应的第二数据元集合,所述历史对标记录库中存储有:历史上被标准化过的非标准数据元的特征信息,所述非标准数据元历史上被标准化后的至少一个标准数据元,以及,所述非标准数据元历史上分别被标准化为各标准数据元的标准化次数;所述第二数据元集合中包括:所述目标数据元历史上被标准化后的各第二标准数据元以及所述第二标准数据元对应的标准化次数;
按照所述第二数据元集合中所述第二标准数据元的标准化次数,确定所述第二标准数据元的推荐评分,其中,第二标准数据元的标准化次数越多,所述第二标准数据元的推荐评分越高,所述第二标准数据元的推荐评分用于表征所述第二标准数据元适合作为所述目标数据元的标准数据元的适合程度;
结合所述第一数据元集合中各第一标准数据元的匹配度以及第二数据元集合中各第二标准数据元的推荐评分,从所述第一数据元集合和第二数据元集合中确定用于标准化所述目标数据元的至少一个第一候选标准数据元。
2.根据权利要求1所述的方法,其特征在于,所述历史对标记录库中还存储有:所述非标准数据元历史上最近一次被标准化为各标准数据元的最近一次标准化时间;
所述第二数据元集合中还包括:所述第二标准数据元对应的最近一次标准化时间;
所述按照所述第二数据元集合中所述第二标准数据元的标准化次数,确定所述第二标准数据元的推荐评分,包括:
按照所述第二数据元集合中所述第二标准数据元的标准化次数以及最近一次标准化时间,确定所述第二标准数据元的推荐评分,其中,所述第二标准数据元的标准化次数越多且最近一次标准化时间距离当前时间的时长越短,所述第二标准数据元的推荐评分越高。
3.根据权利要求1所述的方法,其特征在于,所述结合所述第一数据元集合中各第一标准数据元的匹配度以及第二数据元集合中各第二标准数据元的推荐评分,从所述第一数据元集合和第二数据元集合中确定用于标准化所述目标数据元的至少一个第一候选标准数据元,包括:
结合所述第一数据元集合中各第一标准数据元的匹配度以及第二数据元集合中各第二标准数据元的推荐评分,确定所述第一数据元集合和第二数据元集合中各标准数据元的第一综合评分;
生成用于标准化所述目标数据元的第一候选标准化列表,所述第一候选标准化列表中包括:从所述第一数据元集合和第二数据元集合中确定出的第一综合评分较高的至少一个第一候选标准数据元。
4.根据权利要求3所述的方法,其特征在于,所述第一候选标准化列表中还包括:所述第一候选标准数据元的第一综合评分;
所述方法还包括:
基于所述目标数据元的至少一个特征信息,构建所述目标数据元的特征分词集合,所述特征词集合中包括所述至少一个特征信息分词出的至少一个特征分词;
基于所述特征分词集合,确定所述标准数据元库中与所述目标数据元相似的第三数据元集合,所述第三数据元集合包括:特征信息集与所述特征分词集合的相似度较高的至少一个第三标准数据元,以及,所述第三标准数据元的特征信息集与所述特征分词集合的第一相似度;标准数据元的特征信息集包括所述标准数据元的各个特征信息;
基于各第三标准数据元对应的第一相似度以及所述第一候选标准化列表中各第一候选标准数据元的第一综合评分,从所述第三数据元集合和所述第一候选标准化列表中,确定用于标准化所述目标数据元的至少一个目标标准数据元。
5.根据权利要求4所述的方法,其特征在于,在所述确定用于标准化所述目标数据元的至少一个目标标准数据元之前,还包括:
基于所述特征分词集合,确定所述历史对标记录库中与所述目标数据元相似的第四数据元集合,所述第四数据元集合中包括:对应的非标准数据元的特征信息与所述特征分词集合相似度较高的至少一个第四标准数据元以及所述第四标准数据元对应的非标准数据元的特征信息与所述特征分词集合的第二相似度;
其中,确定用于标准化所述目标数据元的至少一个目标标准数据元,包括:
基于所述第三数据元集合中各第三标准数据元对应的第一相似度以及所述第四数据元集合中各第四标准数据元对应的第二相似度,确定所述第三数据元集合和第四数据元集合中各标准数据元的第二综合评分;
生成用于标准化所述目标数据元的第二候选标准化列表,所述第二候选标准化列表中包括:从所述第三数据元集合和第四数据元集合中确定出的第二综合评分较高的至少一个第二候选标准数据元,以及,所述第二候选标准数据元的第二综合评分;
结合所述第一候选标准化列表中各第一候选标准数据元的第一综合评分以及第二候选标准化列表中第二候选标准数据元的第二综合评分,确定所述第一候选标准化列表和第二候选标准化列表中各候选标准数据元的整体评分;
结合所述第一候选标准化列表和第二候选标准化列表中各候选标准数据元的整体评分,从所述第一候选标准化列表和第二候选标准化列表中确定用于标准化所述目标数据元的至少一个目标标准数据元。
6.根据权利要求5所述的方法,其特征在于,所述确定所述第一候选标准化列表和第二候选标准化列表中各候选标准数据元的整体评分之前,还包括:
基于所述目标数据元的至少一个特征信息以及预先构建的实体规则库,确定所述目标数据元所属的实体类别,所述实体规则库中记录有不同实体类别的特征信息所需满足的特征匹配规则;
确定所述第一候选标准化列表和第二候选标准化列表中各候选标准数据元的实体类别;
对于所述第一候选标准化列表和第二候选标准化列表中每个候选标准数据元,确定所述候选标准数据元的奖惩分数,其中,如果所述候选标准数据元的实体类别与所述目标数据元的实体类别相同,所述候选标准数据元的奖惩分数为正数;否则,所述候选标准数据元的奖惩分数为负数;
其中,确定所述第一候选标准化列表和第二候选标准化列表中各候选标准数据元的整体评分,包括:
结合所述第一候选标准化列表中各第一候选标准数据元的第一综合评分和奖惩分数,以及第二候选标准化列表中第二候选标准数据元的第二综合评分和奖惩分数,确定所述第一候选标准化列表和第二候选标准化列表中各候选标准数据元的整体评分。
7.根据权利要求6所述的方法,其特征在于,所述确定所述第一候选标准化列表和第二候选标准化列表中各候选标准数据元的整体评分,包括
针对所述第一候选标准化列表和第二候选标准化列表中每个候选标准化数据元,基于所述候选标准化数据元的特征信息以及所述候选标准化数据元具有的第一综合评分、第二综合评分和奖惩分数中的至少两个,利用预先训练出的权重评估模型,确定所述候选标准数据元对应的第一权重、第二权重和第三权重;
针对所述第一候选标准化列表和第二候选标准化列表中每个候选标准化数据元,结合所述候选标准数据元对应的第一权重、第二权重和第三权重,以及所述候选标准数据元具有的第一综合评分、第二综合评分和奖惩分数,确定所述候选标准数据元的整体评分;
其中,所述第一权重为所述候选标准数据元的第一综合评分具有的权重占比,所述第二权重为所述候选标准数据元的第二综合评分具有的权重占比,所述第三权重为所述候选标准数据元的奖惩分数具有的权重占比;
所述权重评估模型为利用标注有是否被用户选择的标签的多个数据元样本对应的特征信息、第一综合评分、第二综合评分和奖惩分数训练得到。
8.根据权利要求4所述的方法,其特征在于,所述基于所述特征分词集合,确定所述标准数据元库中与所述目标数据元相似的第三数据元集合,包括:
基于标准数据元索引库中存储的不同标准数据元对应的数据元索引文件,从所述标准数据元索引库中确定数据元索引文件与所述特征分词集合相似的第三数据元集合;
其中,所述标准数据元的数据元索引文件内存储所述标准数据元库中记录的所述标准数据元的特征信息;
所述第三数据元集合中包括:数据元索引文件与所述特征分词集合的相似度较高的至少一个第三标准数据元,以及,所述第三标准数据元的数据元索引文件与所述特征分词集合的第一相似度。
9.根据权利要求5所述的方法,其特征在于,所述基于所述特征分词集合,确定所述历史对标记录库中与所述目标数据元相似的第四数据元集合,包括:
基于历史对标记录索引库中存储的不同标准数据元对应的历史对标索引文件,从所述历史对标索引库中确定出历史对标索引文件与所述特征分词集合相似的第四数据元集合;
其中,所述标准数据元对应的历史对标索引文件包括:基于所述历史对标数据库中不同非标准数据元的特征信息对应的至少一个标准数据元,确定出的所述标准数据元对应的各非标准数据元的特征信息;
所述第四数据元集合包括:历史对标索引文件与所述特征分词集合的相似度较高的至少一个第四标准数据元,以及,所述第四标准数据元的历史对标索引文件与所述特征分词集合的第二相似度。
10.根据权利要求4所述的方法,其特征在于,所述基于所述目标数据元的至少一个特征信息,构建所述目标数据元的特征分词集合,包括:
将所述目标数据元的至少一个特征信息组合成文本;
对所述文本进行分词,得到由所述文本分词出的至少一个特征分词组成的特征分词集合。
11.根据权利要求10所述的方法,其特征在于,在所述将所述目标数据元的至少一个特征信息组合成文本之前,还包括:
针对所述目标数据元的每个特征信息,基于标准特征库中存储的多个标准特征,确定与所述特征信息匹配的标准特征,基于匹配出的标准特征对所述特征信息标准化,得到所述目标数据元对应的标准化后的至少一个特征信息。
12.一种确定标准数据元的装置,其特征在于,包括:
信息获得单元,用于获得待标准化的目标数据元的至少一个特征信息;
第一集合确定单元,用于基于所述目标数据元的各特征信息,从标准数据元库中确定出与所述目标数据元匹配的第一数据元集合,所述第一数据元集合包括:所述标准数据元库中与所述目标数据元匹配的各第一标准数据元,以及所述第一标准数据元与所述目标数据元的匹配度;
第二集合确定单元,用于基于所述目标数据元的各特征信息,从历史对标记录库中确定出所述目标数据元对应的第二数据元集合,所述历史对标记录库中存储有:历史上被标准化过的非标准数据元的特征信息,所述非标准数据元历史上被标准化后的至少一个标准数据元,以及,所述非标准数据元历史上分别被标准化为各标准数据元的标准化次数;所述第二数据元集合中包括:所述目标数据元历史上被标准化后的各第二标准数据元以及所述第二标准数据元对应的标准化次数;
推荐评分单元,用于按照所述第二数据元集合中所述第二标准数据元的标准化次数,确定所述第二标准数据元的推荐评分,其中,第二标准数据元的标准化次数越多,所述第二标准数据元的推荐评分越高,所述第二标准数据元的推荐评分用于表征所述第二标准数据元适合作为所述目标数据元的标准数据元的适合程度;
第一数据元确定单元,用于结合所述第一数据元集合中各第一标准数据元的匹配度以及第二数据元集合中各第二标准数据元的推荐评分,从所述第一数据元集合和第二数据元集合中确定用于标准化所述目标数据元的至少一个第一候选标准数据元。
13.一种计算机设备,其特征在于,包括:存储器和处理器;
所述存储器,用于存储程序;
所述处理器,用于执行所述程序,实现如权利要求1~11中任一项所述的确定标准数据元的方法的各个步骤。
14.一种存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,实现如权利要求1~11中任一项所述的确定标准数据元的方法的各个步骤。