
handoop
Abrid_yd
还要学习的东西还很多(。・∀・)ノ゙
展开
-
对大数据的理解
大数据几个不同的定义: James Kobielus:大数据事实上是引用极限可扩展分析的概念,“极限可扩展分析”这个词在我看来是人们所说大数据的核心。在某种程度上,是可以用三个V来概括的:Volume,数据量,可以使TB可以是PB甚至更大;Velocity,数据流动速度,实时的获取、转换、查询与访问数据;Variety,数据的种类,包括各种结构化数据、非结构化数据以及半结构化数据。在分析方面,它原创 2017-03-12 11:43:12 · 725 阅读 · 0 评论 -
基于Hadoop的一个数据仓库工具hive的搭建
hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。 其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。 我这里主要用于统计处理结构化的文本数据,处理后,存入结构化数据库中展现给用户。转载 2017-03-12 11:53:16 · 1557 阅读 · 0 评论