《Process Analytics 过程分析》读书笔记第三章过程匹配技术_比较两台process tool是否match的方法是?-优快云博客

本文链接：https://blog.youkuaiyun.com/fu_jian_ping/article/details/110453879

本文介绍了过程匹配技术，阐述了需进行流程匹配的应用场景，如Web服务发现等。还概述了不同类型过程属性的相似性度量，提出比较流程模型不同视角的技术，包括模式、接口、协议和过程匹配，并对现有技术进行分析，讨论了选择相似性函数的难题。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

第三章过程匹配技术

随着业务流程管理技术的广泛应用，各个组织创建和运行数百甚至数千个业务流程模型。存储库被提出用于管理大量的流程模型集合，提供丰富的功能集，例如存储、查询、更新和版本化流程模型。管理这些存储库所需的功能之一是比较两个流程模型，还有一些更高级的功能，如基于模型的高级分析、比较模型、重用现有的模型来设计新的过程模型等。本章介绍了过程匹配的技术。我们描述了一些需要进行流程匹配的应用场景，如基于行为的Web服务发现，科学的工作流发现，流程相似性搜索等。其中一些应用程序需要评估过程模型的相似性。我们概述了对于不同类型的过程属性可以考虑的相似性度量。然后，我们提出了比较流程模型不同视角的技术：接口、业务协议和过程模型。根据应用程序，可以使用适当的技术或技术组合。我们对现有的技术进行了分析，并讨论了一些开放的问题。

3.1 引言

比较两个过程包括比较它们描述的所有属性，对应于不同的视角，并评估它们是否相同、等价或相似。在现代企业和应用程序中，业务流程在Web上执行，并作为Web服务公开。作为Web服务，它们具有描述公共操作的WSDL（Web服务描述语言）接口。公共操作之间的约束定义为业务协议。此外，必须比较两个进程操纵的数据(交换的消息。因此，比较两个进程包括比较：(A)它们的消息模式(B)接口（提供的操作集）(C)业务协议(D)流程模型（可执行流程模型）。

3.1.1 应用领域

建模流程的自动完成机制建模业务流程是一项耗时且容易出错的任务。用户可以通过通过提供建议后续片段的自动完成机制来得到帮助。因此，为了找到相似的过程并推荐后续的片段，已经建模的片段必须与存储库中现有的模板进行比较（对用户来说是透明的）。

增量分析在于发现两个业务流程之间的差异。例如，一家公司希望发展其业务流程以符合国际标准。因此，分析师需要识别内部业务流程和标准流程之间的差异，并在理想情况下评估再造工作所产生的成本。

版本管理包括管理随时间演变的不同版本的业务流程。这种演变可能产生于不同的情况，如改变法律、提议特殊优惠、例外处理等。公司需要拥有管理流程版本的操作人员，这可以确保业务流程的一致性和可重用性。此类运算符包括Match，用于在模型独立开发的情况下寻找模型之间的对应关系；Diff，用于查找模型之间的差异；Merge，用于结合两个模型之间的已知关系。

还有其他很多应用。

3.1.2 比较过程模型时使用的相似度量

在比较业务流程模型时，一般会考虑以下六个方面：

名称相似性：名称相似性度量通过语法比较名称字符串来返回它们之间的相似程度。

描述相似性：过程模型通常包含自然语言的描述来表达模型的预期语义。

概念相似性：语义注释可以添加到过程模型中，以丰富模型的语义，例如，将预定义的语义目标与活动相关联。这种相似性度量通过语法上比较语义概念集或逻辑推理来度量语义注释之间的相似性。

数值相似性：计算服务质量属性（如价格、时间或声誉）之间的相似性。在计算之前，需要先数据标准化。

结构相似性：通过比较模型的拓扑结构来计算过程模型结构之间的相似性。

行为相似性：这个度量决定了流程模型的执行语义之间的相似性程度。

3.2 模式匹配

模式匹配是在两个模式之间的元素之间寻找对应（匹配）的任务。该任务将两个模式作为输入，每个模式由一组元素组成，并将这些元素之间的匹配作为输出。

3.2.1 单匹配器匹配方法

这类方法基于单一匹配标准计算元素之间的匹配。采用机器学习的方法，如聚类、统计、规则或启发式。这些方法使用特定类型的模式信息，例如元素名称、数据类型或元素之间的关系。我们将他们分为元素级和结构级技术。元素级匹配器查找模式元素之间的匹配，而不考虑其他元素之间的关系，如下所示：

基于语言的匹配：基于语言的匹配器考虑元素名称及其文本描述的相似性，以识别语义相似的模式元素。元素名称之间的相似性可以使用相似性函数来计算，例如编辑距离、n-gram或前缀/后缀。语义关系（例如元素名称之间的同义词、缩写或近义词）可以被认为是匹配元素，使用公共知识或特定领域的叙词表。

基于约束的匹配：基于约束的技术考虑内部约束，这些约束是在定义元素时指定的，例如数据类型、基数、值域或外键。可以考虑这些约束来确定模式元素的相似性。

结构级匹配器通过分析匹配元素的相似结构来确定匹配元素，例如与其他元素具有相似的关系。实体实例具有包含元素/术语及其关系的图形结构，包括：过程、数据库/可扩展标记语言模式、分类法或本体。一些方法依赖于图匹配算法，该算法将输入模式转换为标记图，并测量图的节点之间的相似性。

3.2.2 多匹配器匹配方法

单匹配器依赖单个匹配标准来查找匹配，多匹配器组合了几个基本匹配器，其中每个基本匹配器只考虑模式元素的一个方面。例如，名字匹配器通过使用一些相似性函数（如编辑距离或Jaccard)，而类型匹配器使用数据类型兼容性表来比较元素的数据类型。多匹配器可以分为混合匹配器和复合匹配器。混合匹配器利用不同的标准来寻找匹配，而复合匹配器独立地执行几个匹配器，包括混合匹配器，并组合他们的结果来做出最终的匹配决定。

3.3 接口匹配

服务规范是指对服务的句法或语义方面的描述。它们向潜在客户公开，用于：

(A)使开发人员能够实现能够正确与服务交互的客户端服务；

(B)无论是在开发时还是在运行时，允许选择满足客户需求的服务。

在今天的Web中，服务规范通常包括服务接口描述和业务协议描述。服务接口(在WSDL中语法指定)定义服务提供哪些操作，以及消息格式和数据类型，而业务协议则指定服务支持哪些消息交换序列。

3.3.1 匹配操作

匹配服务接口可以通过考虑多种互补的证据来源实现，如它们的标签、输入、输出、文本描述和操作属性（如执行时间、成本等）。

现有的方法可以大致分为四类：a.基于句法和语言的方法；b.基于本体的方法；c.基于签名匹配的方法；d.基于适应的方法。

在基于句法和语言的方法中，服务接口的相似性是使用它们的操作的标签来评估的。在语义网的框架内，服务输入/输出属性可以使用一些基于描述逻辑的语言。

基于签名匹配的方法侧重于从软件组件库或网络服务中找到于给定功能或服务操作签名相似的操作。例如，为了找到于给定组件匹配的软件组件，可以通过考虑参数名称、参数类型、参数顺序等来比较软件组件签名的方法；也可以考虑签名匹配和程序行为匹配。

基于适应的方法侧重于是WSDL接口使用不兼容的客户。

3.3.2 匹配QoS服务质量因素

另一个研究方向是在匹配过程中整个操作属性，及服务质量属性QoS（Quality of Service）。网络服务的服务质量是一个宽泛的概念，它包含了服务的各种非功能方面，如性能、可用性、可靠性、信誉等。服务质量匹配是将查询的服务质量要求作为输入，并生成一组满足查询要求的已发布广告作为输出的过程。服务质量匹配既需要指定服务质量属性的描述，也需要相应的匹配算法。

3.4 协议匹配

Web服务的快速增长导致功能上等同的服务激增，但在描述上有所不同，因此需要进行服务调整。对于具有多个和依赖操作的服务，除了接口之外，还必须比较它们的业务协议。关于适配器开发的工作已经识别了Web服务协议之间常见的不匹配。

协议级匹配主要有以下几个分类：

a.顺序不匹配：两个协议支持同一组消息但是顺序不同。

b.额外消息不匹配：当Pr协议中指定的一个或多个消息在协议P中没有任何对应关系时，就会发生这种不匹配。

c.缺失消息不匹配：和额外消息不匹配相反。

d.一对多消息不匹配：这种匹配发生在协议P指定单个消息m来实现一个功能，而协议Pr需要一个消息m1的序列。

e.多对一消息不匹配：

f.流到单个消息不匹配：当协议发布一个消息流，直到满足一个条件，而协议p只需要发送一条消息。

g.单到流消息不匹配：与上一种情况相反。

协议级分析，类似于适配器生成过程，所以协议级分析称之为适配器模拟过程，该过程有三个目的：

a.通过考虑协议之间的完全交互来识别接口匹配结果的合理性；

b.为不导致死锁的不匹配生成适配器规则；

c.识别和分析导致死锁的不匹配，以检查是否有可能提供解决死锁的所需接口映射和规则。

3.5 过程匹配

提供过程模型匹配问题的有效解决方案需要处理三个过程模型方面，即术语、粒度级别和行为/结构差异。

术语不匹配与描述活动的元数据（名称、输入、输出）之间的差异有关。

粒度不匹配，如A中的操作1对应于B中的操作2和操作3。

行为/结构不匹配，如A中的活动1和活动2是顺序执行的，但是在B中却是并行执行的。

测量两个过程模型的相似性可以通过考虑结构或行为。

基于行为的匹配方法通过比较两个过程生成的跟踪来关联过程执行语义。跟踪是流程实例的执行，从初始状态开始到最终状态结束，消耗一组输入并产生一组输出。

基于结构的匹配方法只考虑过程拓扑，即过程模型中指定的控制流（顺序、并行、选择）的类型。

3.5.1 过程模型描述的抽象模型

当前用于匹配过程的方法在表示过程的不同抽象形式上运行。有几种最常用的形式：有限状态机（FSM）、过程图、工作流网workflow。

3.5.1.1 有限状态机

有限状态机：如下如所示

有限状态机是一种过程描述模型，由有限数量的状态、这些状态之间的转换和消息组成。

状态表示流程在执行过程中经历的不同阶段，转换表示通过发送/接收用作转换标签的消息从一种状态转到另一种状态。

状态机能够捕获过程规范语言提供的顺序、替代、并行和循环控制流结构。

有限状态机为逐步过程提供了一个图形化的符号，并具有要给形式化的语义，有一个成熟的数学理论来分析某些过程属性，即活性（确保过程朝着能够达到目标的状态移动）和安全（在有限状态机的每个状态下，逻辑不变量保持不变）。

3.5.1.2 过程图

过程图能够捕捉过程规范语言提供的主要控制流结构（顺序、替代、并发和循环）。过程图的一个主要优点是简单易懂的图形符号。

3.5.1.3 工作流网WF-Nets

工作流网（简称WF网）是一种用于组织间工作流建模的特殊Petri网。WF网是一个有向二部图。

WF网为分布过程提供了一个图形符号，允许捕获顺序、交替、并行和循环控制流结构。WF网为它们的执行语义提供了一个精确的数学定义，并为过程分析（活性、可达性、无死锁等）提供了一个很好的数学理论。

3.5.2 匹配过程活动

当比较两个过程时，首先必须找到两个过程的活动之间的映射。

3.5.3 结构匹配

基于结构的方法通常是基于图的，并且考虑了活动之间的全局图拓扑和局部结构关系。

3.5.4 行为匹配

两个过程之间的相似性被定义为两个过程之间共享的行为关系的大小于最大过程类型的大小之间的比率。

3.6 总结

在比较两个过程模型时，需要考虑过程模型的不同类型的属性，如标签、文本描述、语义描述和基于图的模型。对于相似性计算，我们可以依赖各种相似性函数，例如字符串匹配函数、数字匹配函数、结构匹配函数等。但是没有要给单一的相似性函数可以很好地适用于所有不同类型的视角。很难决定哪些相似性函数应该用于给定的匹配任务，因为：

a.选择合适的相似性函数高度依赖于领域和数据。即使对某些数据集表现良好的函数，在新的和不同的数据集上也会表现不佳。

b.由于大量可用的相似性函数和多种多样的数据特征，选择合适的函数可能需要大量的人工努力以及大量的经验和专家知识。

有位专家提出了一种推荐相似性函数的方法应该用于用于给定的相似性搜索任务。该方法采用增量知识获取技术来获取领域专家关于相似性函数及其使用环境的知识。此外，对于领域专家对数据集知之甚少或一无所知的情况，它们分析数据特征，这在选择相似性函数以便基于所识别的特征推荐相似性函数时是相当重要的。

一旦为每个原子属性选择了合适的相似性度量，下一步就是聚合它们。