40、基于D-S理论的数字记录可信度评估-优快云博客

本文链接：https://blog.youkuaiyun.com/grafana6viz/article/details/149792545

基于D-S理论的数字记录可信度评估

在当今数字化时代，数字记录的可信度评估至关重要。D-S理论为我们提供了一种有效的方法来解决这一问题。下面将详细介绍如何运用D-S理论评估数字记录的可信度。

1. D-S理论基础

D-S理论为结合多观察者的证据提供了一种数学方法，无需像贝叶斯方法那样事先知道先验或条件概率。该理论有以下几个关键概念：
- 识别框架（Frame of Discernment） ：用Γ表示，是一组相互排斥且完备的命题。
- 幂集（Power Set） ：2Γ包含Γ的所有可能子集，以及Γ本身和空集φ。
- 基本信度分配（Basic Belief Assignment，BBA）或质量函数（Mass Function） ：是一个从2Γ到[0, 1]区间的映射函数，记为m，需满足：
- m(φ) = 0
- ∑Ai⊂Γ m(Ai) = 1

质量函数m(A)表示支持命题集A但不支持A的任何子集的证据比例。由于信息不足，命题集A可能包含多个命题，此时质量函数m(A)就是D-S理论中不确定性的来源。

信度函数（Belief Function） ：定义为：
bel(A) = ∑Bi⊂A m(Bi)
信度函数表示命题集A为真的信度程度，它收集所有直接支持A的证据。若命题集A只包含一个命题，则A的信度函数等于其质量函数。
似然函数（Plausibility Function） ：定义为：
pls(A) = ∑Bi∩A≠φ m(Bi)
似然函数表示命题集A不被否定的可能性，它收集所有支持A或不与A矛盾的证据。信度函数和似然函数分别是命题集A的下限和上限，它们之间的关系为：
pls(A) = 1 - bel(¬A)
Dempster组合规则（Dempster’s Rule of Combination） ：用于组合来自不同来源的基本信度分配。假设有两个证据源，其基本信度分配函数分别为m1和m2，则组合规则定义为：
m12(A) = m1(A) ⊕ m2(A) = ∑B∩C=A m1(B)m2(C) / (1 - ∑B∩C=φ m1(B)m2(C))

2. 评估模型模块

数字记录可信度评估模型分为三个模块：
- 知识建模模块（Knowledge-Modelling Module） ：
- 为获取EKM（Evidence Knowledge Model）的证据值，挑选一组专家提供关于所有用于证明数字记录可信度或不可信度的EKM质量的知识。
- 每位专家为EKM分配一个元组集(EV, H)，其中EV属于{Extremely High (EH), Very High (VH), High (H), Medium (M), Low (L), Very Low (VL), Extremely Low (EL)}，表示专家分配给EKM的证据值；H是一个布尔值，表示“可信度假设”，若为真，则表示专家认为相应的EKM能为其高层节点的可信度提供证据。
- 语言值可映射为0到1之间的数字证据值，以百分比形式呈现，如下表所示：

语言证据值	极高（Extremely High）	非常高（Very High）	高（High）	中等（Medium）	低（Low）	非常低（Very Low）	极低（Extremely Low）	φ
数字证据值	95%	80%	65%	50%	35%	20%	5%	0

知识建模模块将专家的知识建模为元组集Ψ：
- Ψ = {{(NEV11, H11), (NEV12, H12) … (NEV1n, H1n)} … {(NEVm1, Hm1), (NEVm2, Hm2), (NEVmn, Hmn)}}
  其中m是EKM的索引，n是专家数量，NEV是数字证据值。
证据组合模块（Evidence-Combination Module） ：
该模块结合所有专家对每一个EKM的分配，以获得每个EKM的评估证据值。
假设EKM的识别框架为Γ = {T, ¬T}，N为EKM的高层节点，T表示{N是可信的}，¬T表示{N是不可信的}，U表示{N是可信的，N是不可信的}。专家Ej的分配元组(NEVij, Hij)可映射到基本信度分配：
- 若Hij = φ，则mij(T) = 0，mij(¬T) = 0，mij(U) = 1
- 若Hij = true，则mij(T) = NEVij，mij(¬T) = 0，mij(U) = 1 - NEVij
- 若Hij = false，则mij(T) = 0，mij(¬T) = NEVij，mij(U) = 1 - NEVij
通过应用Dempster组合规则，对所有专家分配给每个EKM的概率进行聚合，计算每个EKM的证据值：
- mEKMi(T) = mi1(T) ⊕ mi2(T) ⊕ … ⊕ min(T)
- mEKMi(¬T) = mi1(¬T) ⊕ mi2(¬T) ⊕ … ⊕ min(¬T)
- mEKMi(U) = mi1(U) ⊕ mi2(U) ⊕ … ⊕ min(U)
基于信度函数的定义，EKM的信度函数为：
- belEKMi(T) = mEKMi(T)
- belEKMi(¬T) = mEKMi(¬T)
可信度评估模块（Trustworthiness Assessment Module） ：
该模块首先聚合EKM的证据值以评估其对应组件的可信度，然后整合组件的可信度以评估数字记录在每个生命周期阶段的可信度，最后整合生命周期各阶段的可信度以推断数字记录的整体可信度。
应用Dempster组合规则评估数字记录的可信度，数字记录的基本信度分配为：
- mrecord(T) = mcreation(T) ⊕ mmodification(T) ⊕ mmigration(T) ⊕ mretrieval(T) ⊕ mdisposal(T) = mOriginator(T) ⊕ mCreator(T) ⊕ mCreationAction(T) ⊕ … ⊕ mDisposalExecutor(T) ⊕ mDisposalAction(T) = mEKM1(T) ⊕ … ⊕ mEKMm(T)
- mrecord(¬T) = mEKM1(¬T) ⊕ … ⊕ mEKMm(¬T)
- mrecord(U) = mEKM1(U) ⊕ … ⊕ mEKMm(U)
相应地，数字记录可信度的信度和似然分别计算为：
- belrecord(T) = mrecord(T)
- plsrecord(T) = 1 - belrecord(¬T) = 1 - mrecord(¬T)

数字记录的可信度是一个介于belrecord(T)和plsrecord(T)之间的值，为保守起见，通常将数字记录的可信度取为belrecord(T)。

3. 评估示例

下面以数字记录创建阶段为例，展示评估模型的工作方式。假设有三位专家E1、E2和E3为EKM分配证据值，如下表所示：

EKM	Exp.1	Exp.2	Exp.3
Originator - Name	(EH (95%), true)	(EH (95%), false)	(φ (0), φ)
Originator - Affiliation	(VH (80%), true)	(L (35%), false)	(L (35%), false)
Compose Time	(φ (0), φ)	(H (65%), false)	(H (65%), true)
Creator - Name	(H (65%), true)	(H (65%), false)	(VH (80%), true)
Creator - Affiliation	(VH (80%), true)	(M (50%), false)	(L (35%), false)
Creation - Record’s Name	(VH (80%), true)	(VH (80%), false)	(VH (80%), true)
Creation - Time	(L (35%), true)	(H (65%), false)	(VH (80%), false)
Creation - Environment	(H (65%), true)	(VH (80%), true)	(H (65%), false)
Creation - Format	(EH (95%), true)	(EL (5%), true)	(M (50%), false)
Creation - Source	(H (65%), true)	(H (65%), true)	(VL (20%), false)
Creation - Reason & Purpose	(VH (80%), false)	(VH (80%), true)	(H (65%), false)

通过将语言证据值映射为数字证据值，创建阶段专家的知识可建模为：
Ψcreation = {{(95%, true), (95%, false), (0, φ)} … {(80%, false), (80%, true), (65%, false)}}

以“Originator - Name”为例，其基本信度分配如下：
- mOName1(T) = 0.95
- mOName1(¬T) = 0
- mOName1(U) = 0.05
- mOName2(T) = 0
- mOName2(¬T) = 0.95
- mOName2(U) = 0.05
- mOName3(T) = 0
- mOName3(¬T) = 0
- mOName3(U) = 1

应用Dempster组合规则，可得：
- mOName(T) = [mOName1(T) ⊕ mOName2(T)] ⊕ mOName3(T) ≈ 0.4872
- mOName(¬T) ≈ 0.4872
- mOName(U) ≈ 0.0256

由于命题集T和¬T都只包含一个命题，根据信度函数的定义，有：
- belOName(T) = mOName(T) = 0.4872
- belOName(¬T) = mOName(¬T) = 0.4872

这表明基于三位专家的知识，“Originator - Name”作为“发起者可信”这一假设为真的证据的可靠性得分是48.72%，作为“发起者不可信”这一假设的证据的可靠性得分也是48.72%，这是由于专家知识和意见的冲突导致的。

创建阶段所有EKM的组合结果如下表所示：

EKM	m(T)	m(¬T)	m(U)
Originator - Name	0.4872	0.4872	0.0256
Originator - Affiliation	0.6282	0.2147	0.1571
Compose Time	0.3939	0.3939	0.2122
Creator - Name	0.8230	0.1150	0.062
Creator - Affiliation	0.5652	0.2717	0.1631
Creation - Record’s Name	0.8276	0.1379	0.0345
Creation - Time	0.0363	0.8962	0.0675
Creation - Environment	0.8230	0.1150	0.062
Creation - Format	0.9094	0.0453	0.0453
Creation - Source	0.8514	0.0297	0.1189
Creation - Reason & Purpose	0.2188	0.7266	0.0546

可信度评估模块将属性的证据聚合到其父组件，以评估这些组件的可信度：
- mOriginator(T) = 0.6779
- mOriginator(¬T) = 0.3197
- mOriginator(U) = 0.0024
- mCreator(T) = 0.8918
- mCreator(¬T) = 0.0940
- mCreator(U) = 0.0142
- mCreation(T) = 0.9848
- mCreation(¬T) = 0.0152
- mCreation(U) = 0

进一步整合组件的可信度，得到创建阶段数字记录的可信度：
- mcreation(T) = 0.9991
- mcreation(¬T) = 0.0009
- mcreation(U) = 0
- belcreation(T) = 0.9991
- plscreation(T) = 1 - belcreation(¬T) = 0.9991

这表明基于专家对创建阶段EKM的知识，数字记录创建后的可信度得分是99.91%。

4. 不同情况下的评估分析

下面通过三个案例进一步说明专家知识的可信度评估是如何工作的：
- 案例一 ：专家1和专家2都认为“Originator - Name”具有极高的证据价值，但他们关于可信度假设的知识相互冲突。组合他们的知识后，得到belExp1&Exp2(T) = 0.4872，belExp1&Exp2(¬T) = 0.4872，belExp1&Exp2(U) = 0.0256。由于专家知识的矛盾性质，尽管在专家看来这是强有力的证据，但它无法以高证据价值支持记录可信或不可信的断言。
- 案例二 ：专家3由于信息不足，认为“Originator - Name”不能证明组件的可信度或不可信度，因此分配了完全不确定的基本信度（mExp3(U) = 1）。当将专家3的知识与其他专家的知识相结合时，专家3的分配对组合结果没有影响。
- 案例三 ：对于“Originator - Affiliation”，专家1认为它支持“发起者可信”的主张，而其他专家有相反的意见。如果基于多数投票方法组合他们的知识，结果会表明发起者不可信。然而，从专家1的角度来看，“Originator - Affiliation”具有非常高的证据价值，意味着它提供的证据很强。其他专家认为该关联的证据价值较低，即虽然它表明发起者不可信，但证据不够强。因此，使用D - S理论的组合结果表明，该关联提供的证据表明发起者的可信度得分为62.82%，这认可了专家1的知识。

综上所述，D - S理论在数字记录可信度评估中具有重要的应用价值，能够有效地处理多源证据和不确定性问题。通过上述的评估模型和示例，我们可以更准确地评估数字记录的可信度。

基于D-S理论的数字记录可信度评估

5. 评估过程的流程图分析

为了更清晰地展示数字记录可信度评估的整个过程，我们可以使用mermaid格式的流程图来呈现。以下是评估过程的流程图：

graph LR
    classDef startend fill:#F5EBFF,stroke:#BE8FED,stroke-width:2px;
    classDef process fill:#E5F6FF,stroke:#73A6FF,stroke-width:2px;
    classDef decision fill:#FFF6CC,stroke:#FFBC52,stroke-width:2px;

    A([开始]):::startend --> B(知识建模模块):::process
    B --> C(证据组合模块):::process
    C --> D(可信度评估模块):::process
    D --> E([结束]):::startend

    B --> B1(选择专家):::process
    B1 --> B2(专家分配元组集(EV, H)):::process
    B2 --> B3(语言值映射为数字证据值):::process
    B3 --> B4(建模为元组集Ψ):::process

    C --> C1(确定EKM识别框架):::process
    C1 --> C2(专家分配元组映射到基本信度分配):::process
    C2 --> C3(应用Dempster组合规则聚合概率):::process
    C3 --> C4(计算EKM证据值):::process

    D --> D1(聚合EKM证据值评估组件可信度):::process
    D1 --> D2(整合组件可信度评估各阶段可信度):::process
    D2 --> D3(整合各阶段可信度推断整体可信度):::process

从这个流程图中可以看出，整个评估过程是一个有序的、逐步推进的过程。首先在知识建模模块中，通过专家的知识和证据值的映射来构建基础数据。然后在证据组合模块中，对这些数据进行处理和整合，得到每个EKM的证据值。最后在可信度评估模块中，将各个组件和阶段的可信度进行综合，得出数字记录的整体可信度。

6. 优势与挑战分析

6.1 优势

多源证据处理能力 ：D - S理论能够有效地结合来自不同专家和不同来源的证据，这在数字记录可信度评估中非常重要。因为数字记录的可信度可能受到多个因素的影响，不同的专家可能对这些因素有不同的看法和证据，D - S理论可以将这些多源证据进行合理的整合。
处理不确定性 ：在实际评估过程中，往往存在很多不确定性因素，例如专家的知识可能不完整、证据的可靠性可能存在疑问等。D - S理论不需要事先知道先验或条件概率，能够很好地处理这些不确定性，通过基本信度分配和组合规则来综合考虑各种可能性。
灵活性 ：该理论具有相对较高的灵活性，可以根据不同的评估需求和场景进行调整。例如，在不同的数字记录类型或不同的应用领域中，可以选择不同的专家群体、不同的证据来源和不同的评估指标，D - S理论都能够适应这些变化。

6.2 挑战

专家知识的主观性 ：评估过程中依赖专家的知识和判断，而专家的意见可能存在主观性和偏差。不同的专家可能对同一证据有不同的看法，这可能导致评估结果的不确定性增加。例如，在前面的案例中，专家对“Originator - Name”和“Originator - Affiliation”的看法就存在明显的差异。
计算复杂度 ：当证据来源较多、专家数量较大时，应用Dempster组合规则进行证据组合的计算复杂度会显著增加。这可能会导致计算时间过长，影响评估的效率。
冲突证据的处理 ：当遇到冲突性较强的证据时，Dempster组合规则可能会产生不合理的结果。例如在案例一中，专家的知识相互矛盾，虽然证据本身看起来很强，但组合后无法有效支持记录的可信度或不可信度断言。

7. 改进建议与未来展望

7.1 改进建议

专家选择与培训 ：为了减少专家知识的主观性，可以更加谨慎地选择专家，确保他们具有丰富的专业知识和经验。同时，可以对专家进行培训，统一评估标准和方法，提高评估的一致性和准确性。
优化计算方法 ：针对计算复杂度问题，可以研究和采用更高效的计算算法，例如并行计算、近似计算等方法，以提高评估的效率。
冲突证据处理方法改进 ：对于冲突证据的处理，可以探索其他的组合规则或方法，以更好地处理冲突情况，避免不合理的结果。例如，可以引入权重机制，根据证据的可靠性和来源对不同的证据赋予不同的权重。

7.2 未来展望

更广泛的应用领域 ：D - S理论在数字记录可信度评估中的应用可以拓展到更多的领域，例如金融领域的交易记录评估、医疗领域的病历记录评估等。在这些领域中，数字记录的可信度对于决策和安全至关重要，D - S理论可以提供有效的评估方法。
与其他技术的结合 ：可以将D - S理论与其他技术如机器学习、人工智能等相结合，进一步提高评估的准确性和智能化程度。例如，可以利用机器学习算法对大量的数字记录数据进行分析和学习，为D - S理论提供更准确的证据和参数。
实时评估系统的开发 ：随着数字化的快速发展，对数字记录可信度的实时评估需求越来越高。未来可以开发基于D - S理论的实时评估系统，能够及时、准确地评估数字记录的可信度，为用户提供及时的决策支持。

总之，D - S理论在数字记录可信度评估中具有重要的地位和应用前景，但也面临着一些挑战。通过不断地改进和完善，结合其他技术的发展，D - S理论将在数字记录可信度评估领域发挥更大的作用。