《实体解析与信息质量》-1.1.3 实体和引用

本文探讨了实体关系模型中实体与引用的区别,解释了信息系统如何存储和处理实体引用而非实体本身。文中还阐述了导致客户引用混乱的主要原因,如数据质量控制缺失、用户信息变更等,并介绍了客户数据集成系统(CDI)如何帮助解决这些问题。最后,文章提到了CRM系统在整合客户信息方面的应用,以及信息技术领域中不同细分技术领域的发展趋势。

实体和引用

数据建模者经常将实体关系模型中的的实例称作实体,然而,在本书实体解析的讨论背景下,我们必须明确的将之区分开:实体关系模型中的实体类型,并非真正“实体”本身。我们通常所称的实体,譬如图1.1中的“学生”实体类型的某个实例,只不过是计算机中学生数据库表中的一行记录而已。该实例仅仅是真实世界里某位学生在计算机系统中的一个引用。因此,在实体解析上下文背景中,通常认为“实体”本身并不存在于信息系统中—它们只存在于真实世界里。为了更好的理解实体解析,我们必须对“实体”以及“引用”这两个术语加以区分。

ER原则1信息系统存储并处理实体引用,而非实体本身。

图1.2描述了如何使用不同的身份属性的组合与变化来引用同一个实体。用到的属性包括了该实体的姓名,尺寸,数量,厂家以及产品号。

图1.2 实体和引用的区别

地址引用也有相似的组合方式,常见的地址属性包括邮寄地址,GPS坐标或是地标信息。而事件引用则包括姓名,日期,时间,参与者以及地点等属性。

在商业公司中,客户的个人信息至关重要,客户对应的实体是真实世界中的个人或者是另一家公司。而在该公司信息系统里,可能在数据库里有多条记录同时指向该客户,这种情况可能是多条记录出现在同一数据库中,也可能出现于不同的数据库之间。

有许多原因会导致这样的情况出现,比如说也许该客户从公司的不同部门或是销售渠道中都购买过商品, 而这些销售渠道有着各自独立的客户数据库。像这种孤立的,不与公司内部其他系统共享信息的数据库,通常被称为数据孤岛。当这些数据被汇总到总数据库时,系统无法正确的识别两条不同结构的数据其实是指向同一个用户的,这时问题就出现了。正是由于认识到客户及产品信息在整个企业内部保持一致的重要性,业界产生了一个新的称为主数据管理的研究方向。

最常见的,导致引用混乱的原因,是由于缺乏有效的信息质量控制。比如说,手动输入系统的信息会导致信息录入错误。 Maydanchik (2007) 描述了数种信息系统中常见的数据质量错误,其中包括外包导入低质量数据,系统内部不恰当的数据修改,以及数据衰变。

还有一种情况也常常导致客户引用在系统内蔓延,便是当用户的信息发生改变时。最常见的是用户的联系信息,其常常会随着时间发生变化。比如说姓名,家庭地址,电话号码,或者是邮箱。当用户使用新的联系信息被录入系统时,信息系统常常会误认为这是一条新的,从未被录入到系统中的客户信息,而非已知客户。 而这种问题正是ER系统所擅长的:即识别不同引用是否指向了同一实体。

被用做客户(个人消费者或商业用户)识别的ER系统,通常被称为客户数据集成系统(Customer data integration, CDI),而CDI系统是客户关系管理系统(Customer relationship management, CRM)的一个基本组成部分。CRM系统作为一个企业级的操作流程,它的目的是旨在通过提升用户体验来帮助公司获得竞争优势。Dyche and Levy(2006)这样描述CRM系统:“公司籍此来做出如何与客户交互的决策…”而要达到此目的,首先要做的便是利用CDI系统来获得客户与公司的交互模式的全面认知。

CRM作为被公司广泛采用的IT系统,一直以来便持续关注ER系统的最新动态。 其它诸如在1990年左右兴起的商业智能领域的数据仓库,以及这些年来在执法部门和国家情报机构,对个人及组织信息收集的兴趣,都在不断的提高业界对ER系统的关注程度。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值