数据分析与数据挖掘

       全球知名咨询公司麦肯锡最先提出:“数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素,人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来。” 对于我所学习的专业来说,就是大数据时代的产物,越来越多的产业也应运而生。

首先要问的就是,什么是大数据?"大数据"是一个体量特别大,数据类别特别大的数据集,并且这样的数据集无法用传统数据库工具对其内容进行抓取、管理和处理。

“广西人最爱点赞,河北人最爱看段子,最关心时政的是山西人,最关注八卦的是天津。” 这组数据,是今日头条根据用户阅读大数据得出的结论。你的一个无心之举,都可能产生一系列连锁反应。而比这个更精准的数据,是美国明尼苏达州的一则八卦新闻:一位气势汹汹的老爸冲进Target的一家超市,质问超市为什么把婴儿用品的广告发给他正在念高中的女儿,但非常打脸的是,这位父亲与女儿沟通后发现女儿真的怀孕了。事情的真相就是,这位女儿搜寻商品的关键词,以及在社交网络上暴露的行动轨迹,使超市的营销捕捉到了女儿怀孕的气息。大数据来源于海量用户的一次次的行为数据,是一个数据集合。这上面两则例子都是关于数据的运用。大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理。数据挖掘与数据分析技术即是处理数据的两种方法,沃尔玛经典营销案例:啤酒与尿布就是数据分析和数据挖掘的产物。

数据挖掘,又译为资料探勘、数据采矿。数据挖掘一般是指从大量的有噪声的数据中自动搜索隐藏其中的,人们事先不知道的但又有着巨大作用的信息的过程。图1是数据挖掘

的一般过程。

图1:数据挖掘一般过程

数据挖掘是一种决策支持过程,它通过高度自动化地分析企业的数据,做出归纳性的推理,从中挖掘出潜在的模式,帮助决策者调整市场策略,减少风险,做出正确的决策。数据挖掘的重点不是得出结论,而是挖掘出知识,即规则,用挖掘出来的规则去指导分析。利用数据挖掘进行数据分析常用的方法主要有分类、回归分析、聚类、关联规则、特征、变化和偏差分析、Web页挖掘等,它们分别从不同的角度对数据进行挖掘。图2是python利用随机森林对红葡萄酒进行品质分类的实例,并得出影响红酒品质因素的重要性。

图2:影响红酒品质因素排序

数据分析是指用适当的统计分析方法对收集来的大量数据进行分析,提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。这一过程也是质量管理体系的支持过程。在实用中,数据分析可帮助人们做出判断,以便采取适当行动。Excel作为常用的分析工具,可以实现基本的分析工作,在商业智能领域Tableau、大数据魔镜、Power BI等。相比于数据挖掘,数据分析更多在于利用一定的工具和一定的专业知识分析数据。最初的数据分析来源于统计学家和经济学家的一些理论,进而结合一定的实际应用场景解决问题。图3是使用Power BI制作的用户分析的可视化图表。

图3:用户分析

        数据挖掘和数据分析都是从数据中提取一些有价值的信息,二者有很多联系,但是二者的侧重点和实现手法有所区分。 在应用工具上,数据挖掘一般要通过自己的编程来实现需要掌握编程语言;而数据分析更多的是借助现有的分析工具进行,数据分析”得出的结论是人的智力活动结果,而“数据挖掘”得出的结论是机器从学习集(训练集)发现的知识规则。但是数据挖掘和数据分析也有很多相似之处,数据挖掘和数据分析都是对数据进行分析、处理等操作进而得到有价值的知识。数据挖掘和数据分析的联系越来越紧密,很多数据分析人员开始使用编程工具进行数据分析,如SAS、R、SPSS等。而数据挖掘人员在结果表达及分析方面也会借助数据分析的手段。二者的关系的界限变得越来越模糊。

数据挖掘与分析技术运用在很多的方面,金融、医疗、政府、交通等。随着科技的进步,越来越多的算法被改进,越来越多的方法被提出,对于数据的运用越来越极致,结论也越来越有深度。关于数据分析与挖掘技术的运用将会被更广面的普及。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值