
hadoop/spark
文章平均质量分 76
圆觉_
你的核心能力(做成产出)是什么?
展开
-
Hadoop 与Spark比较
Hadoop和Spark的关系中,最重要一点是,它们并不是非此即彼的关系,因为它们不是相互排斥,也不是说一方是另一方的简易替代者。两者彼此兼容,这使得这对组合成为一种功能极其强大的解决方案,适合诸多大数据应用场合。两者定义Hadoop是Apache.org的一个项目,其实是一种软件库和框架,以便使用简单的编程模型,跨计算器集群对庞大数据集(大数据)进行分布式 处理。Hadoop可灵活扩原创 2017-08-08 18:11:59 · 440 阅读 · 0 评论 -
hive内部表与外部表的区别 与Hive数据存储
在工作中,遇到了Hive中内部表和外部表的差别。因此梳理Hive的内部表与外部表两个概念,以及如何在Hive里面创建表和外部表,它们之间的区别。我们可以在关系型数据库里面创建表(create table),这里要讨论的表和关系型数据库中的表在概念上很类似。同样的,在Hive里面可以创建一个表:hive> create table wyp(id int, > name str转载 2017-08-11 17:19:55 · 1936 阅读 · 0 评论 -
Hive SQL使用中遇到的问题与解决方案(持续更新
近期,因统计分析、数据处理的工作需求,经常使用Hive SQL,因此记录遇到的一些问题。1、desc formatted 表名 ----确定表的信息(行、列、存储路径),在确定Hive 数据仓库中表的存储路径时,很有帮助。2、SQL GROUP BY两个字段group by 一般和聚合函数一起使用才有意义,比如 count sum avg等原创 2017-08-11 18:06:57 · 1836 阅读 · 0 评论 -
Hive 数据仓库工具(最全整理)
工作时,数据统计分析、挖掘的时候用到很多Hive方面的内容,就做了一个完整的整理文档。· hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合原创 2017-09-15 16:00:41 · 10583 阅读 · 0 评论