BIRTE 2013实时商业智能研讨会综述

第七届实时企业商业智能国际研讨会(BIRTE 2013)报告

引言

本文报告了与VLDB 2013会议同期举行的第七届国际实时企业商业智能研讨会(BIRTE 2013)。
BIRTE研讨会系列旨在为展示商业智能和实时企业领域的最新研究成果、新技术发展及新应用提供一个论坛。在之前于首尔、奥克兰、里昂、新加坡、西雅图和伊斯坦布尔与VLDB会议联合举办的 BIRTE研讨会取得成功的基础上,第七届BIRTE研讨会于2013年8月26日在意大利加尔达里瓦举行。

如今,为了使企业能够完全保持最新状态,商业分析必须利用新的数据源和技术。关于交易、销售和财务的传统“内部”数据源仍然是商业分析应用的基石,但这已不再足够。相反,必须即时捕获和分析具有高速度的“大数据”,例如推文和其他社交网络更新,以及来自射频识别、全球定位系统、蓝牙等的传感器数据,以了解最新的客户和市场趋势。此外,仅仅分析过去甚至现在的情况已不再足够,因此需要使用预测分析解决方案,基于预期的未来进行决策。这些新的应用和数据源意味着必须重新审视现有的商业智能方法和技术,以提供更高的效率、可扩展性、表达能力和易用性。

2013年实时企业商业智能研讨会包含一系列精彩的学术活动,包括两场主题演讲、一场特邀产业专题报告、一场小组讨论,以及来自欧洲、非洲和亚洲不同国家的多篇经过同行评审的论文。每份投稿均收到由来自学术界和工业界的该领域杰出研究人员组成的项目委员会成员提供的三份评审意见。从这些投稿中两篇完整的研究论文和一篇简短的立场论文,以及两篇演示论文被选中在会议上进行展示。根据评审专家的意见以及研讨会上的反馈,作者们对其论文进行了修订,修订后的论文将发表于Springer LNBIB系列的BIRTE 2013与2014联合会后论文集中[1]。2013年实时企业商业智能研讨会参会情况极佳,高峰时期参会人数超过70人。

2. 主题演讲

在2013年实时企业商业智能研讨会(BIRTE 2013)主席致欢迎辞后,会议以加州大学欧文分校(UC Irvine)的迈克尔·J·凯里(Michael J. Carey)教授的主题演讲拉开序幕,演讲题目为“AsterixDB:实时大数据商业智能的新平台”。在这次主题演讲中,凯里教授介绍了AsterixDB大数据管理系统(BDMS)背后的核心理念和设计原则。AsterixDB具备多项使其区别于其他大数据管理系统的特性:第一,它基于JSON提供了一种独特且灵活的半结构化数据模型(Asterix数据模型);第二,它配备了一种高级声明式查询语言(AQL ‐ Asterix查询语言),能够表达广泛类似的商业智能的查询;第三,它拥有一个高度可扩展的并行运行时引擎 Hyracks,已在数千个核心上进行了测试;第四,通过其基于分区LSM的数据存储和索引机制,能够非常高效地支持新数据的摄入;第五,它既支持外部存储的数据(例如,存储在HDFS中的数据),也支持原生管理的数据;第六,它提供丰富的基本类型,包括空间、时间和文本数据类型;第七,它提供多种辅助索引选项,包括B+树、R树和倒排文件;第八,它支持模糊查询、空间查询、时间查询以及参数化查询;第九,“数据流”(datafeeds)的概念支持从相关数据源进行持续摄入;最后,它具备基本的事务处理能力。

具备类似 NoSQL 数据存储的能力。Asterix 是一个“一种尺寸适合多种需求”的系统。

第二个主题演讲由柏林洪堡大学的约翰·克里斯托夫·弗赖塔格教授(Prof. Johann‐Christoph Freytag)主讲,题为“实时商业智能中的查询适应与隐私”,旨在通过讨论技术和非技术方面,全面概述与实时商业智能系统相关的挑战和问题。首先,该演讲介绍了一些实际应用,并利用这些应用推导出实时商业智能的技术和非技术需求。基于这些需求以及弗赖塔格教授与其他柏林研究团队合作开发Stratosphere数据库管理系统经验,演讲阐述了Stratosphere中支持实时商业智能的查询适应和直方图构建技术。主题演讲的第二部分讨论了处理个人数据时隐私的重要方面,然后概述了实现保护隐私的实时商业智能系统所需满足的必要条件,并探讨了隐私水平与执行实时商业分析者所期望的效用之间的权衡。

3. 研究论文

下一环节包含两篇完整的研究论文和一篇立场论文。雅典经济与商业大学的亚尼斯·索蒂罗普洛斯和达米亚诺斯·查齐安托尼乌所著的论文《 LinkViews:关系型与流式系统集成框架》,针对当前缺乏统一框架来查询(持久化)关系型与流式数据的问题,提出了一种建立在标准关系型系统之上的视图层,以解决关系型系统与流式系统之间的不匹配问题。具体而言,数据库管理员可定义一种特殊类型的视图(称为LinkViews),将关系型数据与流式聚合相结合。作者展示了该方法如何实现关系与流的透明集成,并优化查询处理。接下来,考文垂大学的阿德里安娜·马泰、赵国明和尼克·戈德温所著的论文《面向多维语义网数据库的OLAP》,提出了一种在语义网数据上进行OLAP分析的新框架。该框架包含多个层次,包括附加词汇、扩展的 OLAP操作符以及SPARSQL查询语言,支持异构语义网数据建模、多维结构的统一,并实现不同语义web多维数据库。最后,来自筑波大学的大ke昌弘和川岛英之的论文《流处理系统中变点检测的多查询优化方案》展示了如何将关系数据库技术中广为人知的多查询优化应用于变点检测(CPD)查询。作者提出了一种基于自回归模型的两阶段学习方法,并将CPD划分为四个操作符。为了加速多次CPD执行(用于参数调优),他们采用了多查询优化(MQO)。作者展示了MQO如何实现CPD处理中大部分内容的共享,从而显著提升了性能。

4. 演示

作为实时企业商业智能(BIRTE)会议项目的一项新内容,本次共展示了两篇演示论文。第一篇是来自思爱普公司(SAP AG)的Karsten Schmidt、Philipp Schmidt、Sebastian B¨achle以及 Springer Science and Business Media公司的 Georg Nold所撰写的演示论文《大规模文本分析与智能内容导航》,展示了如何利用SAP Hana平台实现灵活的文本分析、即席计算和数据关联。其目标是提升用户在浏览和探索出版物时的体验,从而支持对大规模文本集合的智能化引导式研究,并使用了主要科学出版社Springer SBM的实际案例数据。第二篇是来自奥尔登堡大学的Timo Michelsen、Marco Grawunder、Dennis Geesen和H.‐J¨urgen Appelrath所撰写的演示论文《用于连续数据流处理的自适应实时仪表盘动态生成》,提出了一种新颖的仪表盘概念,用于可视化连续流查询的结果。该仪表盘由多个可独立配置的组件构成,每个组件连接到一个(用户定义的)连续查询,并实时接收和可视化其结果。

5. 工业界特邀报告

来自 TARGIT 的 Morten Middelfart 博士作了一场鼓舞人心的受邀产业专题报告,题为“基于 TARGIT Xbone 的倒置数据仓库——如何让‘小人物’挖掘最大规模的数据”。该报告介绍了 TARGIT 的 Xbone 内存分析服务器,并定义了“倒置数据仓库(IDW)”的概念,即一种存储查询结果而非原始数据的数据仓库。报告通过一个大规模解决方案示例说明了该概念和系统,其中将 TARGIT Xbone 和 IDW 应用于谷歌搜索数据,以实现搜索引擎优化(SEO)。

6. 小组讨论

研讨会以一场由惠普实验室的许美春主持的“大数据实时分析”小组讨论结束。小组成员包括六位杰出专家:达姆施塔特工业大学的亚历杭德罗·布赫曼、思爱普的谢尔·芬克尔斯坦、柏林洪堡大学的约翰‐克里斯托夫·弗赖塔格、国际商业机器公司的莫汉、国际商业机器公司的伊波克拉蒂斯·潘迪斯,以及奥尔堡大学的托本·巴赫·佩德森。小组成员首先简要阐述了他们对这一主题的看法,并回答了主持人提出的四个问题:大数据实时分析究竟意味着什么?推动这种能力发展的有说服力的应用有哪些?实现此能力的技术栈现状如何,存在哪些差距和挑战?相对于常用来描述大数据的技术特性,如极致扩展性、NoSQL 和开源,以及诸如 SQL-on-Hadoop 和内存存储等新兴技术,实时分析处于怎样的位置?报告结束后,小组成员与非常活跃的观众展开了一场热烈(且有些争议)的讨论。

7. 讨论与展望

我们现对小组讨论和整个研讨会的讨论与贡献进行总结,内容按照小组讨论中的四个问题进行组织。

这意味着什么?首先可以观察到,“实时”一词有两种不同的含义:一种是流处理意义上的实时,另一种是敏捷商业意义上的实时,即分钟/小时级别相对于天级别。从用户角度来看,真正重要的是能够从数据中获取当前的信息和知识,也就是尽可能快地将现实世界的变化反映在数据中。这意味着对数据新鲜度的要求提高以及查询响应时间要短,但并不一定意味着必须使用连续查询或数据流。这也包括对商业事件的自动通知和响应。对于商业实时而言,应能方便地针对新数据提出新的问题,例如语义网数据上的OLAP论文所支持的功能,从而实现对新数据源的敏捷OLAP。另一篇论文探讨了流查询优化。还有一篇论文结合了商业实时与流处理这两种含义,通过为流式数据自动生成仪表盘来实现。

关于大数据热潮,数据库行业一直致力于处理“更大”的数据,而新的价值则在于利用非结构化和半结构化数据。最后,有观点指出,“实时”不仅应涵盖过去和现在,还应包含未来,即将预测和预报紧密集成到数据库和流查询中。

有说服力的应用?讨论的有说服力的应用包括客户关系管理、品牌情绪、预测性维护、网络优化、安全、欺诈检测、文本分析和智能内容导航,其中最后两项来自思爱普的一篇论文。主要问题包括及早发现趋势和找出异常值。分析应用应针对人而非机器进行优化,例如目前缺少用户反馈的可能性。一类新型应用涉及产生大量数据和事件的信息物理系统。其中一种信息物理系统是新兴的智能电网。在此场景中,供需灵活性和预测必须紧密集成和管理,因为数据“诞生”于长期预测,随后被重新预测,最终被测量和采集,然后作为进一步规划与优化的基础。

技术栈的状态及其与技术属性的关系?最后两个问题被一并讨论。一方面,我们看到该领域中出现了若干“新”的数据管理技术。例如,采用半结构化数据模型的AsterixDB系统、基于内存和压缩存储并支持在单一系统中实时集成分析与事务处理的SAP Hana、具有自组织、自修复和自优化能力的Bubblestorm“数据汇合”系统,以及基于分层模型、支持对过去、当前和未来数据进行高效集成查询的TimeTravel系统。另一方面,我们也观察到一种反向趋势,即列式存储、压缩存储、向量处理、多核和缓存感知等“新技术”如今已被整合进传统系统中,带来了数量级上的性能提升,例如DB2 Blu系统便是典型代表。此外,技术栈还致力于整合历史数据与流式数据,LinkView论文便是一个例证。

最后,如果我们查看征稿启事中列出但未在研讨会上以任何形式讨论的主题,它们包括分析即服务、云智能、协作式实时商业智能、众包和群体智能,以及数据质量和清洗。前两个主题涉及将分析作为基于云的服务来运行,这在未来将非常相关,并将成为许多企业的首选方案。然而,这一选项目前尚未广泛普及,这也解释了这些主题缺乏投稿的原因。接下来的两个主题则与人在实时分析中的作用有关,要么是分析师之间的小规模协作,要么是大规模人群的“协作”。同样,目前大多数企业尚未采用这种方式,但在未来必将得到更广泛的使用。

近年来。在实时分析背景下,数据质量和清洗仍是一个未解决的问题,因此关于该主题的论文将会不断出现。

总之,我们可以得出结论:实时企业商业智能仍然具有重要意义,尤其针对大数据的速度维度以及这一新趋势带来的新挑战。因此,实时企业商业智能的前景似乎正朝着积极的方向发展,未来将计划举办更多届会议。

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值