
Hadoop
文章平均质量分 57
kwu_ganymede
Spark高级工程师
展开
-
【解决】 CentOS6.6安装Cloudera Manager5.4的问题
[Author]: kwu CentOS6.6安装CM5.4的问题,在安装cloudera-scm-agent时出现异常,提示缺少类库。原创 2015-10-13 11:49:47 · 651 阅读 · 0 评论 -
hadoop1.x下的NameNode与SecondaryNameNode
hadoop1.x下的NameNode与SecondaryNameNode原创 2016-04-23 18:22:41 · 1145 阅读 · 0 评论 -
通过编程方式详解MapReduce之Shuffle 三个阶段
通过编程方式详解MapReduce之Shuffle 三个阶段原创 2016-04-23 15:31:39 · 5629 阅读 · 0 评论 -
Hadoop经典案例Spark实现(七)——日志分析:分析非结构化文件
Hadoop经典案例Spark实现(七)——日志分析:分析非结构化文件原创 2016-05-17 23:09:18 · 19172 阅读 · 1 评论 -
详解DataNode的容量监控页面参数
详解DataNode的容量监控页面参数原创 2016-05-17 10:23:16 · 3656 阅读 · 0 评论 -
[解决]离线安装cloudera-scm-agent5.7的Unable to create the pidfile问题
[解决]离线安装cloudera-scm-agent5.7的Unable to create the pidfile问题在离线安装Cloudera Manager启动agent出现了如下异常:Unable to create the pidfile原创 2016-05-28 13:59:06 · 6086 阅读 · 5 评论 -
[解决] Cloudera Manager安装锁的问题
[解决] Cloudera Manager安装锁的问题原创 2016-05-13 16:25:23 · 1920 阅读 · 0 评论 -
详解大数据数据仓库分层架构
大数据数据仓库是基于HIVE构架的数据仓库,分布文件系统为HDFS,资源管理为Yarn,计算引擎主要包括MapReduce/Tez/Spark等,分层架构如下:原创 2016-05-10 23:06:08 · 39851 阅读 · 2 评论 -
impala-shell基本命令
impala-shell基本命令原创 2016-04-01 15:49:57 · 11418 阅读 · 0 评论 -
基于Cloudera Manager5.7配置MapReduce与HiveOnSpark压缩
基于Cloudera Manager5.7配置MapReduce与HiveOnSpark压缩原创 2016-07-15 18:04:41 · 1530 阅读 · 0 评论 -
Hadoop新旧集群迁移
Hadoop新旧集群迁移原创 2016-04-28 14:05:15 · 1428 阅读 · 0 评论 -
自动化挂载HDFS文件系统到本地目录
[Author]: kwu 自动化hdfs挂盘原创 2015-10-13 13:45:17 · 1488 阅读 · 0 评论 -
Presto常用配置详细
Presto常用配置详细原创 2017-07-03 21:02:07 · 6811 阅读 · 1 评论 -
基于Zookeeper的分布式锁实现
基于Zookeeper的分布式锁实现原创 2017-06-29 00:29:03 · 959 阅读 · 0 评论 -
HDFS创建快照备份数据
HDFS创建快照备份数据原创 2017-04-10 20:34:15 · 1675 阅读 · 0 评论 -
大数据SQL交互查询 presto/spark/mapreduce 计算引擎对比
大数据SQL交互查询 presto/spark/mapreduce 计算引擎对比原创 2017-03-16 19:20:39 · 4138 阅读 · 0 评论 -
presto使用技巧
presto使用技巧原创 2017-03-10 20:31:51 · 3166 阅读 · 0 评论 -
[解决]presto查询中The node may have crashed or be under too much load.的问题
[解决]presto查询中The node may have crashed or be under too much load.的问题原创 2017-03-08 13:29:22 · 2818 阅读 · 2 评论 -
修改Hive表结构
修改Hive表结构原创 2016-05-18 17:28:33 · 1213 阅读 · 0 评论 -
org.apache.hadoop.ipc.Client: Retrying connect to server异常的解决
org.apache.hadoop.ipc.Client: Retrying connect to server异常的解决转载 2016-03-15 16:32:04 · 4153 阅读 · 0 评论 -
基于CDH5.4的Spark1.4.1下SparkR的部署
基本CDH5.4的Spark1.4.1下SparkR的部署,R与Spark的结合为数据分析提供高效的解决方案,Hadoop的中hdfs为数据分析提供分布式存储。本文介绍集成安装的步骤:原创 2015-10-13 13:32:24 · 1155 阅读 · 0 评论 -
Hadoop经典案例Spark实现(三)——数据排序
Hadoop经典案例Spark实现(三)——数据排序原创 2016-01-07 13:50:53 · 4727 阅读 · 1 评论 -
Hadoop经典案例Spark实现(二)——数据去重问题
Hadoop经典案例Spark实现(二)——数据去重问题原创 2016-01-07 10:57:32 · 11873 阅读 · 1 评论 -
Hadoop经典案例Spark实现(一)——通过采集的气象数据分析每年的最高温度
Hadoop经典案例Spark实现(一)——通过采集的气象数据分析每年的最高温度原创 2016-01-05 18:05:50 · 10087 阅读 · 3 评论 -
Yarn集群资源规划
Yarn资源调度策略原创 2015-11-18 19:19:56 · 1739 阅读 · 0 评论 -
hadoop中使用ACL管理HDFS权限
hadoop中使用ACL管理HDFS权限,ACL的权限划分是在hadoop2.4中新加的权限控制,类似linux的ACL权限原创 2015-11-18 18:34:56 · 3291 阅读 · 0 评论 -
基于Cloudera Manager5配置HIVE压缩
[Author]: kwu基于Cloudera Manager5配置HIVE压缩,配置HIVE的压缩,实际就是配置MapReduce的压缩,包括运行结果及中间结果的压缩。原创 2015-10-13 11:57:24 · 930 阅读 · 0 评论 -
分析MapReduce与Storm的异同
[Author]: kwu 分析MapReduce与Storm的异同原创 2015-10-13 11:56:20 · 3237 阅读 · 0 评论 -
查看yarn当前运行任务列表
Author: kwu 查看yarn当前运行任务列表,可使用如下命令查看:原创 2015-10-13 13:20:30 · 16691 阅读 · 1 评论 -
基于CDH5.4配置挂载HDFS文件系统
基于CDH5.4配置挂载HDFS文件系统原创 2015-10-13 10:30:25 · 1770 阅读 · 0 评论 -
Hadoop经典案例Spark实现(四)——平均成绩
Hadoop经典案例Spark实现(四)——平均成绩原创 2016-01-08 14:57:58 · 5959 阅读 · 3 评论 -
基于CDH5集群配置snappy压缩
基于CDH5集群配置snappy压缩原创 2015-11-04 15:36:29 · 2600 阅读 · 0 评论 -
自定义Cloudera Manager服务端与客户端的依赖包
自定义cloudera manager服务端与客户端的依赖包原创 2015-10-13 13:46:48 · 1205 阅读 · 0 评论 -
【解决】安装CDH需关闭SELinux的问题
【解决】安装CDH需关闭SELinux的问题原创 2015-10-16 11:31:32 · 1730 阅读 · 1 评论 -
【解决】CDH5运行MapReduce的乱码
【解决】CDH5运行MapReduce的乱码原创 2015-11-04 17:08:34 · 1637 阅读 · 0 评论 -
如何以hdfs的用户来执行hadoop命令
当hadoop集群中加上权限管理后,即使是linux的root用户也不能拥有最高权限了,因为hdfs的管理员是hdfs,那么问题来了,怎么在命令行调用hdfs的命令呢原创 2016-02-16 10:48:31 · 10221 阅读 · 0 评论 -
Hadoop经典案例Spark实现(六)——求最大的K个值并排序
Hadoop经典案例Spark实现(六)——求最大的K个值并排序原创 2016-01-08 16:44:32 · 2903 阅读 · 1 评论 -
GZIP、LZO、Zippy/Snappy压缩算法应用场景小结
GZIP、LZO、Zippy/Snappy压缩算法应用场景小结转载 2015-12-24 14:04:34 · 2491 阅读 · 0 评论 -
Hadoop经典案例Spark实现(五)——求最大最小值问题
Hadoop经典案例Spark实现(五)——求最大最小值问题,同时在一个任务中求出来。原创 2016-01-08 15:23:25 · 6994 阅读 · 3 评论 -
检查hdfs块的块——工具fsck(file system check)
hadoop集群运行过程中,上下节点是常有的事情,如果下架节点,hdfs存储的块肯定会受到影响。如何查看当前的hdfs的块的状态hadoop1.x时候的命令,hadoop2.x也可使用:hadoop fsck /在hadoop2.0之后,可以使用新命令:hdfs fsck /返回结果截图如下:参数说明:Total size : hdfs集群存储大小,不包括复...原创 2018-08-24 14:33:45 · 6338 阅读 · 0 评论