基于大数据挖掘----浅谈大数据与大数据挖掘
一、大数据技术
1.1大数据的定义
大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。从某种意义上来说,大数据是为了更经济地从高频率的、大容量的、不同结构和类型的数据中获取价值而设计的新一代构架和技术。
简而言之,大数据就是数据分析的前沿技术,这种技术能从各种各样类型的数据中,快速获得有价值的信息。
1.2大数据的特点
可将大数据的特点总结为:规模性(volume)、多样性(variety)、高速型(velocity)和价值性(value)。
1.规模性:大数据容量巨大,从TB级别,跃升至PB级别,数据容量越来越大已经成为不争的事实。现在一般家庭用的计算机硬盘容量都以TB为单位了,而在各电子商务、游戏、邮箱等,数据容量更是达到PB、EB级别。此外,在用户需求的刺激下,大数据的增长速度也十分惊人。据IDC最近的报告预测称,到2020年,全球数据量将扩大50倍。
2.多样性:数据类型极多,大数据根据终端显示的不同,可分为文档型、多媒体型、图片型等等。这些类型都与我们的网络活动息息相关,为我们的网上生活提供了丰富多彩的形式。数据多样性的增加主要是由于新型多结构数据,包括网络日志、社交媒体、互联网搜索、手机通话记录及各式传感器网络等数据类型造成的。
3.高速性:高速指的是数据被创建和移动的速度,即处理海量数据的速度。因此大数据技术离不开云计算的发展,人们通过云计算可从各种类型的数据中快速获得高价值的信息。在高速网络时代,通过高速电脑处理器和服务器,创建实时数据流已成为流行趋势。根据相关调查预测,到2020年全球将拥有220亿部互联网连接设备,这对大数据的处理速度将有着极高的要求。
4.价值性:人们利用大数据并对其进行正确、准确的分析,将会带来很高的价值回报,但是又因其具有价值密度低的特点,大数据存在不规则和模糊不清的特性,因此很难使用传统的分析软件进行分析。目前,企业面临的挑战是处理并从各种类型的复杂数据中挖掘出价值。
1.3大数据的发展过程
大数据的发展和企业信息化的发展密不可分。在上世纪80年代,企业的各类业务、财务数据都是通过账簿记录,查阅和统计都十分不方便,可靠性也不高。从90年代末开始,金融业、电信业、大型零售等行业企业率先将核心交易数据电子化,2000年以后随着IT技术的发展,越来越多的企业将信息化纳入议程,设计、制造、财务等管理逐步数据电子化,这些数据被企业视为最宝贵的资产,随之而起的数据库技术和网络安全技术也渐渐完善。2010年以后,各式各样的数据,包括客户的浏览数据、反馈数据等在一些企业中也都开始记录并逐步进行建模和分析,基于数据挖掘和分析的预测技术也逐步开始出现。
从过去到现在,数据的价值都在一点一滴的显现,十年前的大数据在如今看来根本不算很大;而同样的,今天的大数据在若干年后也将不再被认为是大数据。数据的容量、处理速度、多样性、复杂度等在今天来看无法想象的事情,若干年之后都会被颠覆。但是唯一不变的,是对数据的思考和分析的方法,以及利用数据来