语义建模中的常见问题与应对策略
1. 未记录偏差和假设的问题
在语义建模过程中,未记录偏差和假设是一个常见且严重的问题。曾经在检查客户的分类法时,发现“tester”这个术语仅被标记为“Software Tester”实体的标签,而未用于其他类似实体,如“Car Tester”或“Drug Tester”。询问分类法创建者后得知,由于使用该分类法的应用程序无法处理歧义,且数据显示“tester” 90%的时间指的是“Software Tester”,所以他们将其作为默认含义。然而,这个选择并未记录下来,这让人担忧模型中可能存在其他类似未被相关利益者知晓的选择、假设和偏差。
1.1 常见未记录信息类型
语义模型中常见的未记录信息包括以下几类:
|信息类型|示例|
| ---- | ---- |
|约束和限制|分类法中不允许概念有多个父概念;实体标签区分大小写且不超过四个单词|
|上下文依赖|某个概念或关系仅适用于应用程序 X、用户 Y 或位置 Z|
|来源|模型使用数据源 X、知识提取工具 Y 和 Z 个领域专家进行填充|
|质量|关系 X 的陈述精度为 85%;法语的石油和天然气领域覆盖率仅为 25%|
|适用性|模型 X 针对语义搜索进行了优化,但不适用于导航|
|设计决策和潜在偏差|关于领域 X 的特定模型针对准确性而非完整性进行了优化,并且对与子领域 Y 相关的实体存在偏差|
1.2 未记录信息的影响
如果模型中缺少这些信息,会使其可用性降低,更容易出错,并且难以维护和发展。因此,在使用语义模型时,需要注意这些问题,在构建模型时则要避免这些做法。以
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



