数据挖掘的商业应用

随着大数据的兴起,数据挖掘的重要性日益凸显。本文作者基于北美地区的商业数据挖掘经验,介绍了数据挖掘的主要技术,如分类、回归、聚类、关联规则等,并探讨了数据挖掘工具,包括商用和开源软件。此外,文章还详细阐述了数据挖掘在金融领域的应用,如信用卡防欺诈系统和支票风险控制,以及在医学领域的案例,展示了数据挖掘在各个行业中的价值和潜力。

(本文源自作者在一次全国软件技术大会上的主题演讲。)

 

近些年随着大数据的火热,数据挖掘也更加引起人们的重视。因为,大家越来越认识到,大数据本身并不能直接给人们带来什么收益,只有运用像数据挖掘这样的技术对大数据进行深入分析,才能得出对人们更有用的东西。如果大数据不能得到深入分析,那大数据只能是占用宝贵的存储资源和浪费昂贵管理成本的一堆大垃圾!

 

虽然数据挖掘的很多技术源自理论界和学术界的一些研究成果,但更有价值的是这些技术能在商业上得到成功的应用。而数据挖掘在理论和实践之间有着相当大的距离和挑战!商业数据挖掘应用在北美地区开展得比较早,应用行业和范围也比较广泛,北美的业界也积累了不少的宝贵经验。下面,就根据我们在北美开展的商业数据挖掘应用的经历,给大家介绍一点相关经验。

 

数据挖掘的主要技术和工具

 

数据挖掘技术的主要原理包括人工智能、模式识别、机器学习、进化计算、信号处理、统计学、以及更广泛的一些数学建模方法等,同时也借鉴了许多其他学科的思想和优化技术。数据挖掘常用的技术,主要包括:

·离散数据分类:是对离散的目标变量进行分类;

·回归预测:是对连续型的目标变量进行预测分析;

·聚类分析:是所谓的“物以类聚,人以群分”的思想,探索数据自然的分组,往往用来探知未知数据的分布规律;

·关联规则:探索事物间并发现象的规律,简单举例,就是想要找到是否A事物的出现会导致B事物的同时出现这样的规律;

·相关分析:探索数据的多维变量之间的相关关系,包括变量实相关和变量虚相关,以及线性(非线性)完全相关、不完全相关、不相关、正相关、负相关等很多种关系;

·特性抽取:是寻找事物主要特征的一种方法,形象地说,就是哲学中的抓事物的主要矛盾。

当然,数据挖掘的技术还远不止这些,例如,还有对数据进行相似性的分析、对数据进行异常点的分析、对数据进行趋势性的分析、对数据进行序列分析、对数据进行时间分析、对数据进行空间分析等等。

 

总结以上,我们说数据挖掘最终目的的就是寻找事物间的关系、抓取事物的主要特征、探索事物隐藏的规律。

 

现在数据挖掘常用工具包括两个大类,分别是商用数据挖掘套件和开源数据挖掘软件,以下是一些在北美地区常用的数据挖掘工具。

商用数据挖掘套件:

•        SAS Enterprise Miner

•        IBM SPSS Modeler (SPSS Clementine)

•        Oracle Data Miner

•        IBM Intelligent Miner

开源数据挖掘软件(Open Source):

•        Weka

•        KNIME

• 

Apace实时历史数据库ApaceRDB是长沙软动信息科技有限公司自主研发的一套基于分布式事务型的通用实时数据库系统,它可以应用于现代工业企业,包括电力、石油、矿山、化工、钢铁、电信、航空等领域,为这些行业的SIS监控系统、仿真系统等提供数据保障。 Apace实时历史数据库Apace提供对实时时序数据的压缩、计算、存储、告警、分发、查询、统计功能,同时,为上层业务系统开发提供了丰富的应用接口,包括组态设计器以及Excel扩展报表插件。 Apace实时历史数据库系统引入了多种创新的技术和理念,各方面的指标在同类软件中都名列前茅。在实时数据采集方面,Apace可以在一台普通服务器上稳定的承载百万点的数据同步更新;在历史数据处理方面,在对多种压缩算法进行研究改进后,创造了Apace独有的魔方无损压缩算法,1万点1年的历史数据仅需5.8GB的空间。同时,Apace独创的索引技术,可以实现检索的时间无关性,即可以从几十、上百年的历史数据中高效的检索任一时间点的数据;在告警服务里,Apace首度提出了趋势拟合和波动拟合告警,这项技术让Apace的告警能力得到了质的飞跃,可实现更为复杂的告警规则;在计算服务方面,计算规则可以采用C#、VB.NET或JScript语言进行编写,支持程序集动态引用技术,算法设计者可以使用自定义的第三方程序集(如VC动态链接库),强化了计算服务的计算能力。 Apace实时历史数据库Apace组态图设计器,可以轻松的设计出仿真式组态图、趋势图、报表等各种所需的组态图,Apace已经为用户提供了20多种基础元件,除了这些基础元件以外,用户还可以根据行业的需要来自定义新的元件;组态图支持客户端脚本编码,可对图中各个元件进行编码控制。在设计过程中,可以随时对组态图进行预览,以查看实际效果,设计完成后通过内置的发布功能,可随时发布到指定的服务器上以供使用。
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值