
若泽大数据=Hadoop
吾..二..二
路虽远,行则将至
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
-大数据入门-2-Hadoop-部署yarn,跑案例
1 MapReduce:计算 是jar包(java 高级班) 企业不用 代码复杂 hive sql/… 是不需要部署的 运行在yarn Yarn: 资源和作业的调度 是需要部署的原创 2019-07-13 15:09:30 · 236 阅读 · 0 评论 -
-大数据入门-2-Hadoop-.YARN架构设计
ResourceManager(RM):负责对各NM上的资源进行统一管理和调度。将AM分配空闲的Container运行并监控其运行状态。对AM申 请的资源请求分配相应的空闲Container。主要由两个组件构成:调度器和应用程序管理器。 调度器(Scheduler):调度器根据容量、队列等限制条件(如每个队列分配一定的资源,最多执行一定数量的作业等),将系 统中的资源分配给各个正在运行的应用程序。...原创 2019-07-20 17:39:51 · 105 阅读 · 0 评论 -
-大数据入门-2-Hadoop-YARN and MapReduce的【内存】优化配置详解
http://blog.itpub.net/30089851/viewspace-2127851/转载 2019-07-20 13:54:53 · 151 阅读 · 0 评论 -
-大数据入门-2-Hadoop-调优配置详解
YARN的Memory和CPU调优配置详解 Hadoop YARN同时支持内存和CPU两种资源的调度,本文介绍如何配置YARN对内存和CPU的使用。 YARN作为一个资源调度器,应该考虑到集群里面每一台机子的计算资源,然后根据application申请的资源进行分配Container。Container是YARN里面资源分配的基本单位,具有一定的内存以及CPU资源。 在YARN集群中,平衡内存、C...转载 2019-07-20 13:49:22 · 178 阅读 · 0 评论 -
-大数据入门-2-Hadoop-shuffle
1wc案例 过程: map---shuffle---->reduce 19/07/13 19:55:31 INFO mapreduce.Job: map 0% reduce 0% 19/07/13 19:55:42 INFO mapreduce.Job: map 50% reduce 0% 19/07/13 19:55:43 INFO mapreduce.Job: map 100%...原创 2019-07-20 13:19:47 · 232 阅读 · 0 评论 -
-大数据入门-2-Hadoop-mapred&yarn常用命令
maprde常用命令 [hadoop@hadoop001 bin]$ ./mapred --help Usage: mapred [--config confdir] COMMAND where COMMAND is one of: pipes run a Pipes job job manipulate Map...原创 2019-07-20 12:52:21 · 529 阅读 · 0 评论 -
-大数据入门-2-Hadoop-yarn的调度器
FIFO 先进先出 Capacity 计算 Fair 公平 生产 大部分 CDH 动态资源池 放置规则 在下图Fair调度器中,从第二个任务提交到获得资源会有一定的延迟, 因为它需要等待第一个任务释放占用的Container。 小任务执行完成之后也会释放自己占用的资源,大任务又获得了全部的系统资源。 最终的效果就是Fair调度器即得到了高的资源利用率又能保证小任务及时完成。 file:///C...原创 2019-07-20 12:32:12 · 166 阅读 · 0 评论 -
-大数据入门-2-Hadoop-课程整理
1.MapReduce map 映射 行数不变 reduce 规约 行数变化 示例如MySQL中运用group by分组函数 2.版本 hadoop1.x 需部署进程 JobTrack TaskTrack hadoop2.x 不需要部署,提交到yarn平台,进行资源 、作业调度。 3.概念 作业 job application 应用 容器:Container...原创 2019-07-19 16:00:40 · 194 阅读 · 0 评论 -
-大数据入门-2-Hadoop-mr提交到yarn的工作流程
mr在yarn架构设计 1.用户向yarn提交job,其中包含application master程序,启动application master的命令等。 2.RM为该job分配第一个container,与对应的NM通信,要求它在这个container启动作业的application master。 3.application master向applications manager注册,这样用户就...原创 2019-07-19 15:58:00 · 373 阅读 · 0 评论 -
-大数据入门-1-Hadoop-ssh机器之间无密码通信
http://blog.itpub.net/30089851/viewspace-1992210/ http://blog.itpub.net/30089851/viewspace-2127102/转载 2019-07-12 01:42:12 · 150 阅读 · 0 评论 -
-大数据入门-2-Hadoop
1启动hdfs [hadoop@hadoop001 ~]$ cd app/hadoop [hadoop@hadoop001 hadoop]$ ll total 84 drwxr-xr-x 2 hadoop hadoop 4096 Jul 9 17:34 bin drwxr-xr-x 2 hadoop hadoop 4096 Mar 24 2016 bin-mapreduce1 drwx...原创 2019-07-12 01:14:51 · 382 阅读 · 0 评论 -
-大数据入门-2-Hadoop-HDFS =解析整理其常用命令
1 恢复命令 [hadoop@hadoop001 hadoop]$ bin/hdfs dfs 这样命令帮助没有 Usage: hadoop fs [generic options] [-appendToFile <localsrc> ... <dst>] [-cat [-ignoreCrc] <src> ...] [-checksum <src&...原创 2019-07-15 21:41:48 · 371 阅读 · 0 评论 -
-大数据入门-2-关于Linux系统30天清理/tmp/文件夹
https://blog.youkuaiyun.com/zhidetian/article/details/51906335转载 2019-07-11 15:29:02 · 396 阅读 · 0 评论 -
-大数据入门-1-Hadoop-hdfs伪分布式部署
Hadoop 大象 广义: 以apache hadoop软件为主的生态圈(hive sqoop spark flink…) 狭义: apache hadoop软件 官网 APAche:www.apache.org CDH:http://archive.cloudera.com/cdh5/cdh/5/ 1.x 企业不用 2.x 主流 3.x 很少敢用 坑 只能自己踩 但是CDH(www.cloude...原创 2019-07-11 13:14:51 · 1111 阅读 · 0 评论 -
-大数据入门-2-Hadoop-HDFS=读写流程
1hdfs读流程 fsdatainpustream [hadoop@hadoop001 hadoop]$ bin/hdfs dfs -cat /examples/output1/part-r-00000 19/07/13 16:18:28 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your plat...原创 2019-07-13 18:14:48 · 161 阅读 · 0 评论 -
-大数据入门-2-Hadoop-HDFS架构,副本放置策略
1.HDFS架构 3.1 HDFS 主从架构 3.2 RACK 机架 案例: 一个机架正常是10个服务器 如果带GPU5个的服务器,GPU耗电。 HDFS集群一般10个节点 或30个节点 ,也有100个节点以下。取决于规划。 机架不会让他发挥作用,default机架, CDH安装默认的,方便管理。 NN:名称节点...原创 2019-07-13 15:57:32 · 312 阅读 · 0 评论 -
-大数据入门-2-Hadoop-HDFS详解1
1.block 块 以前64m,现在128m 容量规格 也可dfs.blocksize: 128m调整为256m,基于生产环境决定。 HDFS 适应场景: 大文件存储,小文件是致命的 生产上:1.小文件阈值, 自己去看一下,取个中间值。 2.如何合并小文件: 数据未落地到hdfs之前合并,数据已经落到hdfs,sp...原创 2019-07-13 15:56:44 · 310 阅读 · 1 评论 -
-大数据入门-2-Hadoop-YARN资源管理
在YARN中,资源管理由ResourceManager和NodeManager共同完成,其中,ResourceManager中的调度器负 责资源的分配,而NodeManager则负责资源的供给和隔离。 ResourceManager将某个NodeManager上资源分配给任务(这就是所谓的资源调度)后,NodeManager需按 照要求为任务提供相应的资源,甚至保证这些资源应具有独占性,为任务运行...原创 2019-07-20 17:58:59 · 199 阅读 · 0 评论