
Hadoop
文章平均质量分 75
狮锅艺
如何从菜鸟到大神,你需要好好学习!
展开
-
Hadoop实践(三)---Hadoop数据类型
《Hadoop MapReduce实战手册》学习笔记原创 2016-10-08 15:48:09 · 6212 阅读 · 0 评论 -
Hadoop实践(二)---集群和开发环境搭建(Intellij IDEA & Maven 开发Hadoop)
Intellij IDEA Maven 开发 Hadoop MapReduce 程序原创 2017-05-23 10:09:40 · 2626 阅读 · 0 评论 -
Hadoop实践(三)---MapReduce作业运行全貌(YARN)
MapReduce作业运行过程原创 2016-10-02 16:34:39 · 1095 阅读 · 0 评论 -
Hadoop实践(一)---Hadoop核心组件之YARN
YARN(Yet Another Resource Negotiator)该框架已经不再是一个传统的MapReduce框架,甚至与MapReduce无关,是一个通用的运行时框架,用户可以编写自己的计算框架,在该运行环境中运行。用于自己编写的框架作为客户端的一个lib,在运用提交作业时打包即可。为啥要开发YARN?那么MR存在哪些缺点和不足?经典 MapReduce 的最严重的限制主要关系到可伸缩性、原创 2017-05-25 19:27:15 · 1718 阅读 · 0 评论 -
Hadoop实践(五)---API之HDFS
HDFS是Hadoop主要应用的一个分布式文件系统。Hadoop中有一个综合性的文件系统抽象,它提供了文件系统实现的各类接口,HDFS是这个抽象文件系统的一个实例。原创 2017-07-01 12:12:25 · 758 阅读 · 0 评论 -
Hadoop实践(一)---Hadoop核心组件之HDFS
Hadoop核心组件之HDFS详解原创 2017-05-24 16:59:19 · 2995 阅读 · 0 评论 -
Hadoop实践(三)---MapReduce中的Counter
在Hadoop的MapReduce框架中包括6种Counters,每一种包含若干个Counter,分别对Map和Reduce任务进行统计 Tips:图片中是Hadoop2.7.3 Counters 略有更新 注意区分 其实根据字面意思大概就知道这个Counter是干啥的原创 2017-06-21 07:36:19 · 2680 阅读 · 0 评论 -
Hadoop实践(四)---性能调优
Hadoop的主要吸引力之一就是它的线性可扩展性。许多作业都可以通过添加更多的机器来加速。Hadoop在性能调优上有一些特定的手段和技巧,总体来说颇有成效。1、通过Combiner来减少网络流量Combiner可以减少在map和reduce之间的shuffle的数据量,较低的网络流量缩短了执行时间2、减少输入数据量在处理大型数据集时,有相当一部分时间花费在扫描磁盘中的数据。减少需要读取的字节数,可以原创 2017-06-29 18:54:12 · 549 阅读 · 0 评论 -
Hadoop实践(四)---生成集群上的监视和调试
成功的在伪分布集群中运行作业之后,可以将实际数据放在生产集群上运行。伪分布式和生产集群的区别:1- 伪分布模式下只有一个节点,所以的日志文件都放在单独的目录/logs中,可以在本地访问1- 在全分布集群中,每个节点都有自己的/logs目录保存其日志文件,通过特定节点上的日志文件来诊断该节点的问题2- 集群中各个守护进程的域名和地址不同,需要根据具体情况确定原创 2017-06-29 18:24:26 · 543 阅读 · 0 评论 -
Hadoop实践(三)---高阶MapReduce
在运行作业处理数据集时,这个作业通常可以通过编写基本的MapReduce程序来生成,但有时需要编写更高级的程序来形成多个作业,或者用他们处理多个数据集。Hadoop有几种不同的方式把多个作业协调在一起,按照顺序链接或按照预定义的依赖关系来执行原创 2017-06-29 16:20:32 · 875 阅读 · 0 评论 -
Hadoop实践(零)---Hadoop作为数据湖
Hadoop作为数据湖的简单认识原创 2017-02-19 17:06:49 · 2981 阅读 · 0 评论 -
Hadoop实践(五)---MR相对SQL的应用
SQL语句有一些常用的方法:SELEECT:从一个包含大量列的数据表中选取出这些列的一个子集WHERE:基于应用在各种列中的值的布尔表达式的结果,筛选数据表中的某行AGGREGATION:根据某些属性的分组结果计算其聚合运算值(如MIN,MAX,SUM,GROUP BY, HAVING)SORTING:对输出数据结按照一定规则排序JOIN:根据不同表中相同的列进行夺标的连接操作原创 2017-07-12 09:16:16 · 575 阅读 · 0 评论 -
测试Hadoop程序
多种Hadoop作业的测试方法原创 2017-07-12 09:57:02 · 791 阅读 · 0 评论 -
Hadoop VS Spark
Hadoop和Spark的对比原创 2017-05-28 19:26:03 · 1380 阅读 · 0 评论 -
Hadoop实践(一)---Hadoop核心组件之MapReduce
Hadoop核心组件之MapReduce详解原创 2017-05-25 10:33:14 · 1432 阅读 · 2 评论 -
Hadoop实践(三)---MapReduce中的输入和输出
MapReduce中处理数据输入和输出的过程原创 2017-06-07 15:03:22 · 5263 阅读 · 0 评论 -
Hadoop实践---导航
Hadoop实践 目录导航原创 2017-06-14 14:47:21 · 1084 阅读 · 0 评论 -
Hadoop实践(三)---MapReduce相关编程笔记
MR应用程序编写笔记原创 2016-09-11 08:53:44 · 851 阅读 · 0 评论 -
Hadoop实践(三)---MapReduce编程 小技巧
总结一些MapReduce编程中的小技巧原创 2016-09-24 19:57:49 · 1028 阅读 · 0 评论 -
Hadoop实践(三)---新旧API对比
新旧API的对比和变化原创 2017-06-26 10:03:45 · 1042 阅读 · 0 评论 -
Hadoop实践(四)---Hadoop集群运维
Hadoop集群简单运维指南原创 2016-09-12 21:23:50 · 1490 阅读 · 0 评论 -
Hadoop实践(四)---MR作业配置
一个Hadoop作业可获得的全部支持在HadoopAPI中有详细的描述原创 2017-06-30 10:29:01 · 1759 阅读 · 0 评论 -
Hadoop配置文件
Hadoop集群中每个计算节点都有自己的一组配置文件,有2种类型的配置文件原创 2016-08-28 17:29:53 · 2009 阅读 · 0 评论 -
Linux---ssh配置免密码登录
SSH配置C/S免密码登录原创 2017-06-03 10:01:34 · 940 阅读 · 0 评论 -
Hadoop实践(四)---Hadoop集群测试(MR样例)
Hadoop 自带示例程序详解原创 2017-03-18 15:29:17 · 3490 阅读 · 0 评论 -
Hadoop实践(四)---在HDFS中合并文件
HDFS进阶原创 2016-10-07 16:11:05 · 5887 阅读 · 0 评论 -
Hadoop实践(四)---Hadoop性能优化
**Hadoop参数优化的3个原则: (1)增大作业的并行程度,如增加Map任务的数量 (2)保证任务执行时有足够的资源 (3)满足前两个的情况下,尽可能为shuffle阶段提供资源 【以上适用于大部分分布式计算的框架】原创 2016-09-12 21:32:35 · 4162 阅读 · 0 评论 -
Hadoop实践(二)---集群搭建之Hadoop 2.7.1
大型集群完全分布式构建原创 2016-10-07 16:19:37 · 2426 阅读 · 0 评论 -
Hadoop实践(二)---集群搭建之Hadoop 2.7.3
Hadoop 2.7.3 全分布式配置原创 2016-12-28 20:33:32 · 1543 阅读 · 0 评论 -
Hadoop实践(三)---MR作业运行(源码详解)
源码解析MapReduce作业处理过程原创 2017-05-25 15:26:47 · 2165 阅读 · 2 评论 -
Hadoop配置中已弃用的属性
Hadoop中不再使用的配置属性原创 2016-12-31 20:01:39 · 2568 阅读 · 0 评论 -
YARN与MRv1对比
YARN的改进原创 2016-10-01 15:38:55 · 1394 阅读 · 0 评论 -
Hadoop2.0全分布式集群架构
Hadoop 2.0 集群搭建原创 2016-08-27 14:55:27 · 1515 阅读 · 0 评论 -
Hadoop实践(四)---Hadoop管理与维护命令
本文收集和整理了在日常维护hadoop集群时运维工程师需要掌握的最基本的hadoop管理与维护的相关命令原创 2016-10-16 19:16:03 · 813 阅读 · 0 评论 -
Hadoop实践(二)---Hadoop集群的使用和配置
Hadoop脚本命令和配置细节原创 2016-10-08 20:42:01 · 792 阅读 · 0 评论 -
Hadoop实践(四)---MR Job卡住的问题
当出现 job 卡住的时候可以这样排查问题原创 2017-03-19 10:55:39 · 2372 阅读 · 0 评论 -
Hadoop实践(三)---Hadoop API 之 ToolRunner
Apache Hadoop Main API原创 2017-03-14 19:01:49 · 931 阅读 · 0 评论 -
Hadoop实践(三)---WordCount示例
Hadoop快速入门MapReduce编程转载 2017-02-22 16:34:10 · 993 阅读 · 0 评论 -
Hadoop实践(三)---HDFS Java 应用程序示例
Hadoop快速入门HDFS基础知识转载 2017-02-21 21:34:03 · 1584 阅读 · 0 评论 -
Hadoop实践(三)---使用HDFS的Java API
HDFS进阶原创 2016-10-07 16:06:36 · 2616 阅读 · 0 评论