语义数据建模:避免伤害与弥合差距
1. 语义数据模型中的偏差问题
语义数据模型是人类信念和思维方式的符号抽象,因此容易受到人类偏见的影响。很多人可能会认为,自己构建的本体和分类法比机器学习模型的偏差更小,因为机器学习模型本质上是统计性的,推理规则不透明,而本体和分类法只包含明确的事实。然而,这种观点并不一定正确。
1.1 概念知识的特性
语义模型中包含的许多概念知识是抽象、模糊且依赖于上下文的。例如,关于数据科学家和数据工程师之间语义差异的讨论,或者对“老年人”和“年轻人”年龄界限的划分,看似中立,但都可能导致意想不到的后果。这些后果可能包括从可信来源传播虚假信息,或者将边缘化群体从数据集中抹去。想象一下,如果保险公司使用模型对“老年人”的定义来调整某人的保险费,你能有多大把握认为这个定义是正确和客观的呢?
1.2 偏差的来源
偏差可能源于语义模型的规范本身,也可能出现在半自动构建模型所使用的算法、(人类和数据)来源中。此外,我们衡量质量的方式、对某些质量维度的优先级设定,甚至模型的演化策略,都可能引入偏差。而且,根据模型的使用方式和规模,这些偏差可能会被放大,并在不同系统中传播。
1.3 应对偏差的措施
作为语义模型的创建者,我们在做出与模型相关的每一个决策时,无论大小,都应该思考(并测试)是否会对某些人造成伤害。同时,我们必须仔细审查开发模型所使用的方法、来源、假设和设计决策,并在记录这些信息时保持透明和严谨。而作为语义模型的使用者,我们不应仅仅表面接受模型,而应积极识别其中可能存在的偏差。最终目标是将偏差的恶性循环转变为良性循环,让设计良好且具备偏差意识的语义模型帮助机器学习系统减少
超级会员免费看
订阅专栏 解锁全文
717

被折叠的 条评论
为什么被折叠?



