大数据技术入门
1. 引言
如今,利用不断增长的商业相关数据的能力,使我们能够洞察世界的发展趋势。大数据正是当下的热门词汇之一。大数据指的是大量快速产生和传播的异构数据集,传统的数据处理、分析、检索、存储和可视化技术已无法满足处理这些海量数据的需求。这在传感器生成的数据、社交媒体以及数字媒体的上传和下载等领域表现得尤为明显。
例如,每秒会产生8910条新推文、89,845GB的互联网流量以及81,734次谷歌搜索。预计到2020年代,数字宇宙的数据将增长10倍。
这些海量数据对企业的运营产生了深远影响。许多企业渴望成为数据驱动型公司,但在有此抱负的企业中,只有37%取得了成功。信息过载使得决策过程变得更加困难,这促使企业重新审视内部业务流程,以及用于收集、传输、存储和分析数据的工具。
此外,数据呈现出非结构化数据增多、结构化数据减少的趋势。商业智能应用主要关注结构化数据,但非结构化数据在企业数据中占比高达80%,如自由文本、电子邮件、图像、音频文件和视频等。随着数据规模从数TB增长到PB甚至EB,企业需要开发能够处理大规模数据的平台,这也促使许多公司加强员工技能培训,以有效利用复杂的非结构化数据分析系统。
多项调查显示,企业对大数据的投资不断增加。Gartner调查的400家公司中,75%表示已经开始或计划在未来几年内进行大数据投资。到2020年,企业将继续在社交和大数据分析方面进行广泛投资,并为用户提供访问内部和外部数据源的平台。德勤的调查也强调了数据分析在商业领域的重要性,约75%的受访者认为数据的持续传播将有利于企业战略,96%的受访者认为数据分析在未来3年将为企业带来附加值。
超级会员免费看
订阅专栏 解锁全文
2万+

被折叠的 条评论
为什么被折叠?



