
若泽大数据=Hadoop
吾..二..二
路虽远,行则将至
展开
-
-大数据入门-2-Hadoop-部署yarn,跑案例
1MapReduce:计算 是jar包(java 高级班) 企业不用 代码复杂 hive sql/…是不需要部署的 运行在yarnYarn: 资源和作业的调度 是需要部署的原创 2019-07-13 15:09:30 · 225 阅读 · 0 评论 -
-大数据入门-2-Hadoop-.YARN架构设计
ResourceManager(RM):负责对各NM上的资源进行统一管理和调度。将AM分配空闲的Container运行并监控其运行状态。对AM申 请的资源请求分配相应的空闲Container。主要由两个组件构成:调度器和应用程序管理器。调度器(Scheduler):调度器根据容量、队列等限制条件(如每个队列分配一定的资源,最多执行一定数量的作业等),将系 统中的资源分配给各个正在运行的应用程序。...原创 2019-07-20 17:39:51 · 100 阅读 · 0 评论 -
-大数据入门-2-Hadoop-YARN and MapReduce的【内存】优化配置详解
http://blog.itpub.net/30089851/viewspace-2127851/转载 2019-07-20 13:54:53 · 133 阅读 · 0 评论 -
-大数据入门-2-Hadoop-调优配置详解
YARN的Memory和CPU调优配置详解Hadoop YARN同时支持内存和CPU两种资源的调度,本文介绍如何配置YARN对内存和CPU的使用。YARN作为一个资源调度器,应该考虑到集群里面每一台机子的计算资源,然后根据application申请的资源进行分配Container。Container是YARN里面资源分配的基本单位,具有一定的内存以及CPU资源。在YARN集群中,平衡内存、C...转载 2019-07-20 13:49:22 · 159 阅读 · 0 评论 -
-大数据入门-2-Hadoop-shuffle
1wc案例过程:map---shuffle---->reduce 19/07/13 19:55:31 INFO mapreduce.Job: map 0% reduce 0%19/07/13 19:55:42 INFO mapreduce.Job: map 50% reduce 0%19/07/13 19:55:43 INFO mapreduce.Job: map 100%...原创 2019-07-20 13:19:47 · 225 阅读 · 0 评论 -
-大数据入门-2-Hadoop-mapred&yarn常用命令
maprde常用命令[hadoop@hadoop001 bin]$ ./mapred --helpUsage: mapred [--config confdir] COMMAND where COMMAND is one of: pipes run a Pipes job job manipulate Map...原创 2019-07-20 12:52:21 · 511 阅读 · 0 评论 -
-大数据入门-2-Hadoop-yarn的调度器
FIFO 先进先出Capacity 计算Fair 公平 生产 大部分CDH 动态资源池 放置规则在下图Fair调度器中,从第二个任务提交到获得资源会有一定的延迟,因为它需要等待第一个任务释放占用的Container。小任务执行完成之后也会释放自己占用的资源,大任务又获得了全部的系统资源。最终的效果就是Fair调度器即得到了高的资源利用率又能保证小任务及时完成。file:///C...原创 2019-07-20 12:32:12 · 161 阅读 · 0 评论 -
-大数据入门-2-Hadoop-课程整理
1.MapReducemap 映射 行数不变reduce 规约 行数变化 示例如MySQL中运用group by分组函数2.版本hadoop1.x 需部署进程 JobTrack TaskTrackhadoop2.x 不需要部署,提交到yarn平台,进行资源 、作业调度。3.概念作业 job application 应用容器:Container...原创 2019-07-19 16:00:40 · 179 阅读 · 0 评论 -
-大数据入门-2-Hadoop-mr提交到yarn的工作流程
mr在yarn架构设计1.用户向yarn提交job,其中包含application master程序,启动application master的命令等。2.RM为该job分配第一个container,与对应的NM通信,要求它在这个container启动作业的application master。3.application master向applications manager注册,这样用户就...原创 2019-07-19 15:58:00 · 360 阅读 · 0 评论 -
-大数据入门-1-Hadoop-ssh机器之间无密码通信
http://blog.itpub.net/30089851/viewspace-1992210/http://blog.itpub.net/30089851/viewspace-2127102/转载 2019-07-12 01:42:12 · 140 阅读 · 0 评论 -
-大数据入门-2-Hadoop
1启动hdfs[hadoop@hadoop001 ~]$ cd app/hadoop[hadoop@hadoop001 hadoop]$ lltotal 84drwxr-xr-x 2 hadoop hadoop 4096 Jul 9 17:34 bindrwxr-xr-x 2 hadoop hadoop 4096 Mar 24 2016 bin-mapreduce1drwx...原创 2019-07-12 01:14:51 · 372 阅读 · 0 评论 -
-大数据入门-2-Hadoop-HDFS =解析整理其常用命令
1 恢复命令[hadoop@hadoop001 hadoop]$ bin/hdfs dfs 这样命令帮助没有Usage: hadoop fs [generic options] [-appendToFile <localsrc> ... <dst>] [-cat [-ignoreCrc] <src> ...] [-checksum <src&...原创 2019-07-15 21:41:48 · 359 阅读 · 0 评论 -
-大数据入门-2-关于Linux系统30天清理/tmp/文件夹
https://blog.youkuaiyun.com/zhidetian/article/details/51906335转载 2019-07-11 15:29:02 · 380 阅读 · 0 评论 -
-大数据入门-1-Hadoop-hdfs伪分布式部署
Hadoop 大象广义: 以apache hadoop软件为主的生态圈(hive sqoop spark flink…)狭义: apache hadoop软件官网APAche:www.apache.orgCDH:http://archive.cloudera.com/cdh5/cdh/5/1.x 企业不用2.x 主流3.x 很少敢用 坑 只能自己踩但是CDH(www.cloude...原创 2019-07-11 13:14:51 · 1092 阅读 · 0 评论 -
-大数据入门-2-Hadoop-HDFS=读写流程
1hdfs读流程 fsdatainpustream[hadoop@hadoop001 hadoop]$ bin/hdfs dfs -cat /examples/output1/part-r-0000019/07/13 16:18:28 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your plat...原创 2019-07-13 18:14:48 · 143 阅读 · 0 评论 -
-大数据入门-2-Hadoop-HDFS架构,副本放置策略
1.HDFS架构3.1 HDFS 主从架构 3.2 RACK 机架 案例: 一个机架正常是10个服务器 如果带GPU5个的服务器,GPU耗电。 HDFS集群一般10个节点 或30个节点 ,也有100个节点以下。取决于规划。 机架不会让他发挥作用,default机架, CDH安装默认的,方便管理。NN:名称节点...原创 2019-07-13 15:57:32 · 305 阅读 · 0 评论 -
-大数据入门-2-Hadoop-HDFS详解1
1.block 块以前64m,现在128m 容量规格也可dfs.blocksize: 128m调整为256m,基于生产环境决定。HDFS 适应场景: 大文件存储,小文件是致命的生产上:1.小文件阈值, 自己去看一下,取个中间值。 2.如何合并小文件: 数据未落地到hdfs之前合并,数据已经落到hdfs,sp...原创 2019-07-13 15:56:44 · 291 阅读 · 1 评论 -
-大数据入门-2-Hadoop-YARN资源管理
在YARN中,资源管理由ResourceManager和NodeManager共同完成,其中,ResourceManager中的调度器负 责资源的分配,而NodeManager则负责资源的供给和隔离。ResourceManager将某个NodeManager上资源分配给任务(这就是所谓的资源调度)后,NodeManager需按 照要求为任务提供相应的资源,甚至保证这些资源应具有独占性,为任务运行...原创 2019-07-20 17:58:59 · 185 阅读 · 0 评论