第五章 业务过程数据分析
理解信息系统的行为以及它们所支持的过程和服务的问题已成为大中型企业的优先事项。 这表现在分析过程执行、系统交互和系统依赖关系的工具激增,以及最近在过程数据存储和过程发现方面的研究工作。 事实上,采用业务流程智能(BPI)技术来改进流程是大中型公司的主要关注点。 在此背景下,识别业务需求和确定业务问题的解决方案需要对业务流程数据进行分析。 分析商业数据将有助于发现有用的信息,提出结论,并支持企业的决策。
5.1 仓储业务过程数据
改进业务过程对任何公司都至关重要。过程改进需要分析作为第一个基本步骤。在分析过程数据之气那,需要捕获和组织过程数据。这很重要,因为在现代企业中,过程步骤的执行会在各种系统和组织中留下临时/永久的痕迹。为了分析过程数据,可以使用提取、转换和加载ETL工具将数据收集到数据仓库中,然后利用OLAP工具沿不同的维度对数据进行切片和切割。
在这种情况下,过程数据仓库提出了有趣的挑战:
a.外包:为过程数据的仓储和报告开发一个临时的和特定于过程的解决方案不是一个可持续的模型。
b.过程数据抽象:在信息技术系统中执行的典型过程非常详细,由几十个步骤组成,包括手动操作、数据库事务和应用程序调用。
c.数据演化:业务过程自动化/分析应用程序时共同开发的,这意味着在开发过程中,对数据源甚至对报告要求的更改相当频繁。
考虑到上述挑战,在业务过程领域,设计一种方法来最小化变更的影响并能够快速修改和重新测试ETL过程、仓库模型和报告是很重要的。Casati等人提出了过程数据仓库的概念。特别是,他们提供了一个可配置的仓库模型,可以满足几乎任何过程的复杂报告需求,同时还考虑了性能限制。
为了支持业务过程数据的仓库,需要为用户提供一种建模抽象的方法。这将有助于理解高级过程,也将描述其进展如何映射到底层事件。此外,还需要一种ETL机制,该机制基于抽象过程定义和不同系统上发生的事件,用抽象的过程执行数据加载仓库。为了解决这些需求,对抽象过程建模应该包括:
a.描述过程流;
b.指定每个过程的抽象业务数据是如何填充和维护的;
c.将每个步骤的开始和完成与抽象业务数据的更改相关联;
d.将步骤与人力或自动化资源相关联;
为了填充过程数据仓库,必须首先将数据从不同的事件日志数据库提取到中转区的着陆表中。在过程域中,数据服务在提取过程中起着重要的作用。
5.1.1 数据服务
在企业世界中,数据服务在SOA架构中扮演着重要的角色。例如,当企业希望可控地共享数据,通过互联网,它可以使用数据服务来提供机制,以发现哪些数据可以访问,数据的语义是什么,以及如何从多个企业集成数据。特别是,数据服务是“通过服务消费者提供丰富的元数据、表达语言和API来发送查询和从服务提供商接收数据,从而解决这些问题的软件组件。
网络服务,即两个电子设备之间通过网络进行通信的一种方法,可以被专门化为一种数据服务,以封装广泛的以数据为中心的操作,其中这些操作需要提供其底层数据的语义上更加丰富的视图,以便使用或集成不同数据服务返回的内容。
数据即服务DaaS,即数据可以按需提供给用户,而不管提供上和消费者的地理或组织分离。特别是,创建数据服务是为了集成数据源集合并为其提供服务。
可以利用数据服务来减少建立数据集成系统所需的工作量,并在使用时以”按需付费“的方式改进系统。在这种情况下,在提供任何服务之前,数据集成需要语义集成。这一点很重要,因为过程数据分散在几个系统和数据源中,并且没有一个模式可以让所有与过程相关的数据都遵循。为了应对这一挑战,建议使用数据空间来克服数据集成系统中遇到的一些问题,提高对数据的认识,并解决确保数据在存储库中长期可用的问题。
5.1.2 数据空间
数据空间是数据管理中的一种抽象,旨在以方便、集成和有原则的方式管理企业中大量不同的相关数据源。数据空间不同于数据集成方法。因此它们在所有数据源上提供基本功能,而不管它们是如何集成的。
数据空间支持平台DSSP已被引入作为数据管理领域的一个关键议程,并在企业的(半)结构化数据源上提供数据集成和查询能力。
DSSP:
1.帮助识别数据空间中的源和相关的已识别资源。DSSP需要支持数据空间中的所有数据,而不是像数据库管理系统那样遗漏一些数据。
2.为数据空间中的资源提供基本的搜索、查询、更新和管理机制,包括反思内容的能力。
数据空间是异构和部分非结构化数据的大型集合,因此,对结合关键字和数据结构的查询的索引支持可能具有挑战性。
最近,一种新的数据服务被设计用于在云中提供数据管理:云正迅速成为一种新的通用数据存储和管理平台。实际上,数据仓库、分区和复制是在分布式数据管理领域实现可用性、可伸缩性和性能改进目标的众所周知的策略。
越来越多的组织开始转向各种类型的非关系型、Nosql数据库。Nosql是一个广泛的低成本和高性能数据库管理系统的类别,并提出解决关系数据库管理系统的确定啊:不断增长的可扩展性需求和网络技术的新进展,要求促进应用程序作为分布式和可扩展服务的实施,给关系数据库管理系统带来了新的挑战。
5.2 支持过程执行数据的大数据分析
在现代企业中,企业从各种来源积累了大量数据,为了了解业务,需要对异构和部分非结构化流程相关执行数据的大型集合进行大量分析。这些数据越来越多地显示除大数据的所有典型属性:广泛的物理分布、格式的多样性、非标准的数据类型以及独立管理的异构语义,并且需要以图形的形式表示,即大型流程图。数据中有意义的发现和分析有助于理解大业务数据,着眼于预测和改善未来的业务绩效。
为了理解可用的数据(事件、业务工件、数据库中的数据记录等),可以使用ER图表示它们,即实体关系图。
5.2.1 在线分析处理
过程数据的本质有一个分析方向,因此过程分析可以从决策支持系统和商业智能工具中受益。过程分析受益于OLTP和OLAP,从而减少分析过程数据所需的时间。OLTP旨在促进和管理面向事务的应用程序,通常用于数据输入和检索事务处理。OLAP支持长期数据的分析和挖掘,并为决策者提供一个生成决策信息的平台。
5.2.2 趋势、假设、高级分析
现有的业务分析工作更侧重于利用广泛的分析能力探索新知识和调查分析,包括:趋势分析、假设分析和高级分析。
趋势分析的重点是利用跟踪模式的能力来探索数据和跟踪业务发展。
在假设分析中,具有重新组织、重塑和重新计算数据能力的场景非常受关注。在这一类别中,业务过程数据可以通过场景规划和模拟等技术来预测组织的未来行为。
高级分析技术提供了揭示业务模式和发现组织环境中重要元素之间关系的技术。
此外,一个新的工作流,侧重于将社会技术编织到业务过程管理中。它们旨在将社会技术集成到业务过程生命周期不同阶段的机会,以便发现过程工件之间隐藏的关系。
5.3 业务数据分析和过程空间
现有的业务过程管理工具支持对运营业务过程的监控和分析,即明确定义的过程,过程由过程感知系统管理,如工作流管理系统。
5.3.1 过程空间
过程空间基本上由用于企业中哪些信息项是相关的标准或机制的定义组成,即属于过程的同一执行,将信息项映射到过程进展事件的方式,以及企业中过程的过程模型。在过程空间中,不同的过程模拟、映射和相关性可以在同一组信息项上定义,因为不同的分析师可能对事件的不同视图感兴趣(称为过程视图)。
数据空间管理系统旨在使从多个异构数据源访问数据成为可能,但它不提供在进程执行的上下文中解释数据的能力。
过程空间管理系统PSMS:允许跨数据源浏览关于过程执行的所有信息,并识别过程执行方面的信息之间的关系,能够索引包括业务文档以及过程执行上下文,以便支持过程执行的有效搜索和查询。
5.3.2 过程空间的逻辑组件
企业中的业务过程是使用各种(异构)信息系统和服务来实现的。过程空间是包含于企业中流程执行相关信息的一组数据源,我们在其上叠加了一个业务过程隐喻。
过程空间中的数据源可以分为两种类型:
1.事件数据源是指存储与企业中信息系统和服务之间的业务过程执行以及业务文档和消息交换相关的事件的元数据的数据源。
2.业务数据是指包含交换的文档和消息或业务过程执行期间产生的任务执行数据的数据源。
这两种数据源是分开维护的,或者在某些情况下使用相同的系统。
数据空间的逻辑组件时数据源、对应关系、映射、关联和过程模型。
下图显示了从信息项开始在过程空间中定义的过程视图。换句话说,也可以使用在信息项上定义的过程视图来表征过程空间。
过程视图可以嵌套。例如,采购订单管理系统的过程视图嵌套在整个企业的过程视图中。
5.3.3 过程空间管理系统
过程空间管理系统PSMS,被设计为能够在过程空间中解释信息。PSMS提供以下典型功能类别:过程空间定义/发现、过程空间分析以及用于过程空间探索和可视化的最终用户工具。
过程空间定义/发现开发PSMS的主要步骤是定义过程空间,以识别过程空间的逻辑组件。这既可以由人类用户手动定义,也可以从过程空间的数据源中自动发现。
下图是过程空间管理系统的组件。
关于这些组件,它还应该为组件的发现提供自动化支持。特别是,随着更多信息在企业中变得可用,它必须支持过程空间组件的增量发现和演化。
过程空间分析组件如上图所示,PSMS提供了几个相互关联的组件,用于分析、查询和监控过程空间中的过程执行,其中一些组件是由传统工作流管理系统提供的几代组件。
PSMS系统允许信息由不同的信息系统独立管理,并在这些系统的集合上提供一套新的服务。特别是,希望支持以下分析任务:浏览、查询和搜索引擎,监控和跟踪引擎,符合性验证引擎,模型管理引擎,过程空间探索和可视化工具。
5.4 过程挖掘
为了分析过程执行数据,查询完成的业务过程的执行日志(即过程挖掘)在研究中不断受到关注。过程挖掘是简化过程查询并使用查询信息半自动化,以便在实际过程、过程数据和过程模型之间轻松建立联系。过程挖掘包含过程分析,并通过对过程执行的更全面的见解来增强它:过程挖掘技术可用于通过重放用于发现过程模型的执行跟踪来识别瓶颈和临界点,并用定量信息发丰富所发现的模型。
特别是,过程挖掘通过使用过程建模/分析、机器学习和数据挖掘技术从事件日志中提取知识,有助于发现和改进真实的过程。这些方法的主要关注点是从信息系统组件的执行日志中逆行工程业务过程模型的定义。
过程挖掘的挑战包括:
1.挖掘隐藏和重复的任务:过程挖掘的基本假设之一是每个事件都在日志中注册。因此,很难找到未记录的任务信息。
2.循环:在一个过程中,可能会多次执行同一个任务。
3.时态属性:时态元数据(例如事件时间戳)可以用于向过程模型添加时间信息,或者用于提高所发现的过程模型的质量。
4.挖掘不同的视角:理解过程日志的范围和细节是有挑战性的,尤其是因为他是主观的,取决于过程分析师的视角。
5.处理噪音和不完整性:日志可能包含噪音(例如错误记录的信息)并且可能是不完整的(例如日志不包含足够的信息来导出该过程)。
6.从异构来源收集数据:在现代企业中,关于过程执行的信息分散在几个系统和数据源中。
7.可视化技术:它有助于以人们在过程中实际获得洞察力的方式呈现过程挖掘的结果。
8.Delta分析:用于比较两种过程模型,说明差异。
过程挖掘由三种类型:
a.发现:这项技术获取一个事件日志,并在不使用任何先验信息的情况下生成一个模型。
b.一致性:在这项技术中,现有的过程模型与同一过程的事件日志进行比较。一致性检查可用于检查日志中记录的现实是否符合模型,反之亦然。
c.增强:这种技术可以用来扩展或改进现有的过程模型,使用一些事件日志中记录的关于实际进程的信息。在这种情况下,可以以识别两种类型的增强:修复:用来修改模型以更好地反映现实;扩展,用来通过将过程模型与日志相互关联来为过程模型添加新的视角。
过程挖掘和数据挖掘虽然有许多共通的方面,但是它们在做什么和在哪里有用都有根本的区别。
5.5 分析过程数据中的交叉(横切)方面
5.6 业务工件的起源和演化
起源是指一个对象的记录历史(例如文档、数据和资源)或对象生命周期中过程的文档,它跟踪对象进化和派生的步骤。