
hadoop
盒马coding
这个作者很懒,什么都没留下…
展开
-
数据化管理应用管理图
链接: https://pan.baidu.com/s/193Y_unXr7N6I9C3DsJi-qQ?pwd=gnjv 提取码: gnjv。原创 2022-09-07 11:25:16 · 442 阅读 · 0 评论 -
HADOOP HDFS BALANCER介绍及经验总结
转载地址:http://www.aboutyun.com/thread-7354-1-1.html1.集群执行balancer命令,依旧不平衡的原因是什么?该如何解决?2.尽量不在NameNode上执行start-balancer.sh的原因是什么?集群平衡介绍Hadoop的HDFS集群非常容易出现机器与机器之间磁盘利用率不平衡的情况转载 2017-11-07 10:37:29 · 1813 阅读 · 0 评论 -
windows 调用Linux集群运行过程详解
2016-10-06 10:38:11,950 INFO [main] Configuration.deprecation (Configuration.java:warnOnceIfDeprecated(1129)) - session.id is deprecated. Instead, use dfs.metrics.session-id2016-10-06 10:38:11,954原创 2016-10-06 10:48:45 · 1318 阅读 · 0 评论 -
Linux 下运行wordcount的过程详解
[root@hadoop1 ~]# hadoop jar wordcount.jar bigDate.LinuxWordCount // 运行的命令16/10/05 01:40:03 INFO Configuration.deprecation: session.id is deprecated. Instead, use dfs.metrics.session-id16/10/05原创 2016-10-05 20:31:32 · 2408 阅读 · 0 评论 -
windows 运行hadoop单机版程序执行过程
2016-10-05 22:23:20,565 INFO [main] Configuration.deprecation (Configuration.java:warnOnceIfDeprecated(1129)) - session.id is deprecated. Instead, use dfs.metrics.session-id2016-10-05 22:23:20,569原创 2016-10-05 22:35:35 · 1472 阅读 · 0 评论 -
hadoop 指标说明
dfs.datanode.blockChecksumOp_avg_time 块校验平均时间 dfs.datanode.blockChecksumOp_num_ops 块检验次数 dfs.datanode.blockReports_avg_time 块报告平均时间 dfs.datanode.blockReports_num_ops 块报告次数 dfs.datanode.blo原创 2016-10-11 11:30:03 · 1443 阅读 · 0 评论 -
hadoop fs 命令
1,hadoop fs –fs [local | ]:声明hadoop使用的文件系统,如果不声明的话,使用当前配置文件配置的,按如下顺序查找:hadoop jar里的hadoop-default.xml->$HADOOP_CONF_DIR下的hadoop-default.xml->$HADOOP_CONF_DIR下的hadoop-site.xml。使用local代表将本地文件系统作为hadoop的原创 2016-09-07 23:33:57 · 1584 阅读 · 0 评论 -
Hadoop运行原理详解
1、Map-Reduce的逻辑过程假设我们需要处理一批有关天气的数据,其格式如下:按照ASCII码存储,每行一条记录每一行字符从0开始计数,第15个到第18个字符为年第25个到第29个字符为温度,其中第25位是符号+/-0067011990999991950051507+0000+0043011990999991950051512+0022+00原创 2016-09-09 22:44:00 · 962 阅读 · 0 评论 -
Hadoop CDH四种安装方式总结及实例指导
CDH安装有四种方式Cloudera managerTarballYumRpm其中Yum及Rpm安装可以算作一种安装方式下面是四种方式分别介绍:Cloudera manager 安装Cloudera Manager和CDH4.1的安装Cloudera Manager的安装需要先修改机器的三个配置原创 2016-09-09 22:26:05 · 7823 阅读 · 0 评论 -
hadoop 使用内部RPC技术实现通信
package com.day08.rpc.click;import java.io.IOException;import org.apache.hadoop.HadoopIllegalArgumentException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.ipc.RPC;impor原创 2016-07-21 23:11:51 · 621 阅读 · 0 评论 -
hadoop 总结1
1、hadoop 的核心部件 A. HDFS(分布式文件系统)B. YARN(运算资源调度系统)C. MAPREDUCE(分布式运算编程框架)2、重点组件HDFS:分布式文件系统MAPREDUCE:分布式运算程序开发框架HIVE:基于大数据技术(文件系统+运算框架)的SQL数据仓库工具HBASE:基于HADOOP的分布式海量原创 2016-07-20 22:52:09 · 418 阅读 · 0 评论 -
关于CDH和Cloudera Manager
或下载word文档:http://download.youkuaiyun.com/detail/xfg0218/9747346关于CDH和Cloudera ManagerCDH (Cloudera's Distribution, including Apache Hadoop),是Hadoop众多分支中的一种,由Cloudera维护,基于稳定版本的Apache Hadoop构建,并集成原创 2017-02-05 12:25:35 · 7753 阅读 · 0 评论 -
Centos 7.2 安装 Ambari 2.2.2 + HDP 2.4.2 搭建Hadoop集群
1.安装环境说明安装前先安装好 Centos 7.2, jdk-8u91, mysql5.7.132.操作系统环境准备2.1 配置SSH免密码登录主节点里root用户登录执行如下步骤ssh-keygencd ~/.ssh/cat id_rsa.pub >>authorized_keyschmod ~/.sshchmod ~/.ssh/authoriz转载 2017-03-03 13:31:34 · 544 阅读 · 0 评论 -
hadoop hbase metric名全解释
转载地址:http://blog.youkuaiyun.com/mrtitan/article/details/8984980系统参数监控metricsload_one 每分钟的系统平均负载load_fifteen 每15分钟的系统平均负载load_five 每5分钟的系统平均负载boottime转载 2018-01-16 15:02:33 · 920 阅读 · 0 评论 -
基于HDP2.6.0.3-8的Hadoop TestDFSIO、mrbench和nnbench是三个广泛被使用的测试
1、Hadoop Test 的测试# cd /usr/hdp/2.6.0.3-8/hadoop-mapreduce查看参数 # hadoop jar hadoop-mapreduce-client-jobclient-2.7.3.2.6.0.3-8.jar An example program must be given as the first argument.原创 2017-11-21 15:36:33 · 5215 阅读 · 1 评论 -
HDFS高级操作命令和工具
HDFS高级操作命令和工具 本文讲解HDFS 的一些高级操作功能,以及通过web 方式查看HDFS 信息的方法。1. archive在本地文件系统中,如果文件很少用,但又占用很大空间,可以将其压缩起来,以减少空间使用。在HDFS 中同样也会面临这种问题,一些小文件可能只有几KB 到几十KB,但是在DataNode 中也要单独为其分配一个几十MB 的数转载 2017-11-06 15:41:20 · 512 阅读 · 0 评论 -
100+大数据开源处理工具汇总
http://bigdata.evget.com/post/734.html原创 2017-11-20 14:53:29 · 418 阅读 · 0 评论 -
hadoop snapshot 备份恢复
原文地址:http://blog.youkuaiyun.com/linlinv3/article/details/44622203通过snapshot实现 hdfs上文件的备份api地址请见http://archive.cloudera.com/cdh5/cdh/5/hadoop-2.5.0-cdh5.2.0/hadoop-project-dist/hadoop-hdf转载 2017-10-26 16:31:25 · 549 阅读 · 0 评论 -
hadoop distcp 参数详解
# hadoop distcp usage: distcp OPTIONS [source_path...] OPTIONS -append Reuse existing data in target files and append new data原创 2017-11-13 10:13:39 · 7392 阅读 · 0 评论 -
Hadoop生态上几个技术的关系与区别:hive、pig、hbase 关系与区别
原贴:http://blog.youkuaiyun.com/chengxuyuanyonghu/article/details/65443067?locationNum=5&fps=1Pig一种操作hadoop的轻量级脚本语言,最初又雅虎公司推出,不过现在正在走下坡路了。当初雅虎自己慢慢退出pig的维护之后将它开源贡献到开源社区由所有爱好者来维护。不过现在还是有些公司在转载 2017-11-07 13:11:35 · 1234 阅读 · 0 评论 -
Hadoop和大数据:60款顶级开源工具
原贴:http://blog.youkuaiyun.com/u013250327/article/details/51423658说到处理大数据的工具,普通的开源解决方案(尤其是Apache Hadoop)堪称中流砥柱。弗雷斯特调研公司的分析师Mike Gualtieri最近预测,在接下来几年,“100%的大公司”会采用Hadoop。Market Research的一份报告预测,到2011年,Ha转载 2017-11-07 12:36:53 · 1289 阅读 · 0 评论 -
hadoop dfsadmin -report命令详细信息
# hadoop dfsadmin -reportDEPRECATED: Use of this script to execute hdfs command is deprecated.Instead use the hdfs command for it.Configured Capacity: 785128114790400 (714.07 TB)Presen原创 2017-11-07 11:05:53 · 1878 阅读 · 0 评论 -
hadoop 手机流统计
package com.Example;import java.io.DataInput;import java.io.DataOutput;import java.io.IOException;import org.apache.hadoop.io.Writable;public class DataWriter implements Writable {// upd原创 2016-07-20 21:10:40 · 641 阅读 · 0 评论 -
namenode正处于safemode状态,怎么处理?
解释:safemode是namenode的一种状态(active/standby/safemode安全模式)namenode进入安全模式的原理: a、namenode发现集群中的block丢失率达到一定比例时(0.01%),namenode就会进入安全模式,在安全模式下,客户端不能对任何数据进行操作,只能查看元数据信息(比如ls/mkdir) b、如何退出安全模式?找到问题原创 2016-07-20 15:40:16 · 7123 阅读 · 0 评论 -
HDFS 冗余数据块的自动删除
在日常维护hadoop集群的过程中发现这样一种情况:某个节点由于网络故障或者DataNode进程死亡,被NameNode判定为死亡,HDFS马上自动开始数据块的容错拷贝;当该节点重新添加到集群中时,由于该节点上的数据其实并没有损坏,所以造成了HDFS上某些block的备份数超过了设定的备份数。通过观察发现,这些多余的数据块经过很长的一段时间才会被完全删除掉,那么这个时间取决于什么呢?原创 2016-07-20 15:31:08 · 1495 阅读 · 0 评论 -
hadoop 知识点总结
1、支持的模式启动hadoop 集群 1)、单机模式 ---- 对调试非常有帮助 2)、为分布模式 ---- 3)、完全分布式模式2、 格式化新的分布式文件系统 ./sbin/hadoop namenode -format 3、 启动hadoop ./sbin/st原创 2016-06-23 23:42:26 · 802 阅读 · 0 评论 -
hadoop的特点
1、在运行时不需要配置很高,是通过所有的机器来计算的2、高效率:通过分发数据,可以在数据所有的结点上进行并发的处理,这使得处理的速度非常快3、可靠性:能搞自身的维护数据的多个成本,并且在任务失败是自动的重新部署计算任务4、可扩容性:能可靠的储存和处理PB级的数据原创 2015-01-01 20:32:45 · 3557 阅读 · 0 评论 -
hive
Hive 是基于Hadoop 构建的一套数据仓库分析系统,它提供了丰富的SQL查询方式来分析存储在Hadoop 分布式文件系统中的数据,可以将结构化的数据文件映射为一张数据库表,并提供完整的SQL查询功能,可以将SQL语句转换为MapReduce任务进行运行,通过自己的SQL 去查询分析需要的内容,这套SQL 简称Hive SQL,使不熟悉mapreduce 的用户很方便的利用SQL 语言转载 2015-01-01 20:05:42 · 661 阅读 · 0 评论 -
面试题以及答案
1. 下面哪个程序负责 HDFS 数据存储。答案C datanodea)NameNodeb)Jobtrackerc)Datanode d)secondaryNameNodee)tasktracker2. HDfS 中的 block 默认保存几份? 答案A默认3分a)3 份b)2 份c)1 份d)不确定3. 下列哪个程序通常与 NameNo转载 2015-01-01 21:48:46 · 3082 阅读 · 0 评论 -
hadoop管理员常用命令
启动Hadoop进入HADOOP_HOME目录。执行sh bin/start-all.sh关闭Hadoop进入HADOOP_HOME目录。执行sh bin/stop-all.sh 1、查看指定目录下内容hadoop dfs –ls [文件目录]eg: hadoop dfs –ls /user/wangkai.pt2、打开某个已存在文件转载 2015-01-01 20:55:07 · 902 阅读 · 0 评论 -
hadoop常用的框架
Hadoop总结:MapReduse:对数据的处理,数据主要来自于hdfsHdfs(Hadoop Di):hadoop 的分布式文件系统,相当于win的资源管理器,储存与管理文件Nutch:浏览器的简称Unstructured Date:非结构化的数据,常见的有log日志,包含Flume与Scribe(能收集数据),可以用来收集数据Structured Date:结构化的数据原创 2015-01-01 20:17:55 · 745 阅读 · 0 评论 -
hadoop图解
原创 2015-01-01 23:35:23 · 467 阅读 · 0 评论 -
hadoop面试题
1.Hadoop集群可以运行的3个模式?单机(本地)模式伪分布式模式全分布式模式2. 单机(本地)模式中的注意点?在单机模式(standalone)中不会存在守护进程,所有东西都运行在一个JVM上。这里同样没有DFS,使用的是本地文件系统。单机模式适用于开发过程中运行MapReduce程序,这也是最少使用的一个模式。3. 伪分布模式中的注意点?原创 2015-01-01 21:40:26 · 759 阅读 · 0 评论 -
HDFS详解
一、HDFS的基本概念1.1、数据块(block)HDFS(Hadoop Distributed File System)默认的最基本的存储单位是64M的数据块。和普通文件系统相同的是,HDFS中的文件是被分成64M一块的数据块存储的。不同于普通文件系统的是,HDFS中,如果一个文件小于一个数据块的大小,并不占用整个数据块存储空间。1.2、元数据节点(Namenode)和数原创 2014-12-31 23:35:30 · 659 阅读 · 0 评论 -
hadoop 配置文件
1、查看配置文件 cd /usr/local/hadoop/hadoop-2.6.4/etc/hadoop core-site.xml hadoop-env.sh hdfs-site.xml slaves yarn-env.sh 1) 、配置hadoop守护线程原创 2016-06-24 12:51:31 · 554 阅读 · 0 评论 -
Hadoop环境配置
安装钱准备:* 关闭防火墙 : service iptables stop(关闭防火墙)) 或者 chkconfig iptables off (禁止防火墙)* 修改IP : cd /etc/sysconfig/network-scripts vi ifcfg-eno16777736原创 2015-01-03 17:50:19 · 566 阅读 · 0 评论 -
hadoop 视频总结(2) -- 主要是软件的安装以及代码的实现
1、Apache Hadoop 安装以及部署的模式: A、 单机模式 -- 主要是针对本地的操作,一般部署在一天机器上,用于测试比较好 B 、伪分布模式 --- 一台机器上运行着所有的Hadoop的 服务(五个守护的进程) C、完全分布模式 -- 多台机器上运行着Hadoop的服务,真是的环境。原创 2016-06-29 00:01:09 · 347 阅读 · 0 评论 -
hadoop datanode 节点超时时间设置
定义:datenode 与namenode 之间的通信是通过心跳的机制,当超过一定的时间则默认为datanode 为死亡,默认的死亡的事件为:10分钟+30秒 ,可同一下配置文件配置:datanode进程死亡或者网络故障造成datanode无法与namenode通信,namenode不会立即把该节点判定为死亡, 要经过一段时间,这段时间暂称作超时时长。H原创 2016-07-20 15:28:35 · 2754 阅读 · 0 评论 -
hadopp 的机架感知
转载请注明出处:http://blog.youkuaiyun.com/l1028386804/article/details/519351691.背景 Hadoop在设计时考虑到数据的安全与高效,数据文件默认在HDFS上存放三份,存储策略为本地一份,同机架内其它某一节点上一份,不同机架的某一节点上一份。这样如果本地数据损坏,节点可以从同一机架内的相邻节点拿到数据,速度肯定比从跨机架节转载 2016-07-20 15:13:30 · 457 阅读 · 0 评论 -
hadoop 视频总结(1) -- 主要是概念
1、概念: HDFS : Hadoop DIstributed File Sysytem 分布式分拣储存系统 MapReduce : 并行计算框架2、HDFS 与MapReduce 结构 HDFS: 主从结构: 主节点,只有一个: namenode原创 2016-06-27 09:31:19 · 547 阅读 · 0 评论