
hadoop
文章平均质量分 67
杯底囚人
这个作者很懒,什么都没留下…
展开
-
zookeeper集群的完全分布式安装
zookeeper集群的完全分布式安装本文是传智播客八天——第五天学习笔记使用一台主机两台虚拟机配置zookeeper完全分布式环境原创 2016-04-24 16:46:21 · 596 阅读 · 0 评论 -
MetaException(message:Hive metastore database is not initialized. Please use schematool (e.g. ./sch
配置好hive,第一次使用时,可能会出现以下错误: MetaException(message:Hive metastore database is not initialized. Please use schematool (e.g. ./schematool -initSchema -dbType …) to create the schema. If needed, don’t forg原创 2016-11-06 20:22:07 · 5726 阅读 · 3 评论 -
简单的Hadoop RPC实例
RPC:远程调用服务 假如有两个不同的项目A&B,A项目如果想调用B项目的接口,需要使用RPC。类似于webServers。新建maven project 如果eclipse中没有maven插件,可以安装一个。 help=>install new software=>work with=> add=>location:http://m2eclipse.sonatype.org/sites/原创 2016-06-13 16:11:44 · 1312 阅读 · 1 评论 -
Flume初介绍和命令行使用
Flume:cloudera提供的高可用的、高可靠的、分布式的海量日志采集、聚合、和传输系统。Flume 的设计目标:可靠性:当节点出现故障时,日志能够被传送到其他节点而不会丢失。 flume提供了三种可靠性保障: end to end (仅一次)store on failoure (当数据接收方crash时,将数据写道本地,待恢复后继续发送)best effort (数据发送到接收方后,原创 2016-06-30 16:51:39 · 5571 阅读 · 0 评论 -
搭建hadoop的高可用性(HA)集群
本文为传智播客八天——第五天学习笔记因为电脑配置问题,只能同时运行三台虚拟机。三台是hadoop高可用性集群的最小数目。不能再少了。前期准备:1、修改linux主机名和IP2、修改主机名和IP的映射关系3、关闭防火墙4、ssh免登录5、安装JDK,配置环境变量集群规划:主机名 IP原创 2016-04-21 09:09:52 · 958 阅读 · 1 评论 -
hadoop DataNode节点超时
DataNode节点超时时间设置DataNode进程死亡或网络节点故障造成DataNode无法与NameNode通信,NameNode不会立即把该节点判定为死亡,要经过一段时间,这段时间成为超时时长。HDFS默认的超时时长为10分钟+30s。 如果定义超时时长为timeout,则超时时长的计算公式为: timeout = 2 * heartbeat.recheck.interval + 10 *原创 2016-06-25 18:53:34 · 1595 阅读 · 0 评论 -
Hadoop 序列化
在第一步中, 客户端编写好了代码并打包成jar包,会提交到集群中,也就是Cluster中,通讯方式就是通过RPC来通讯的。(RPC的一个最简单示例) 当集群收到请求后,就会告诉yarn,请求分配资源。当yarn处理之后,会返回一个地址给client(第二步)。客户端去这个地址拷贝jar包(第三步)。 第四步 就是提交任务给RM,主要提交的是任务的描述信息,比如jobID、jar包存在的位置、配置原创 2016-06-25 18:32:56 · 606 阅读 · 0 评论 -
hadoop HDFS
hadoop主要分为三个模块:HDFS、MapReduce、Yarnhadoop具体能干什么:hadoop擅长日志分析海量数据存储 hadoop具有很多节点,节点叫DataNode。 每一个块在节点上存多个副本。海量数据计算 map本地局部处理。 reduce通过网络取得其他节点的统计结果。HDFS的实现思想:hdfs是通过分布式集群来存储文件,为客户原创 2016-06-25 18:30:06 · 799 阅读 · 0 评论 -
Hadoop YARN
YARN的主要职责是做资源调度的。 resource manager —— node manager 节点 节点MAPREDUCE MRAppMaster —— yarnchild 动态产生出来的 动态产生出来的Yarn框架的主节点是resource manager,从节点是node manager 1. RunJar申请resource m原创 2016-06-25 18:28:58 · 1128 阅读 · 0 评论 -
hadoop Federation(联邦)简介
在hadoop1.x中HDFS的架构文件的存储是放在块上的(Block Storage) 文件的元数据是放在namenode上的,只有一个Namespace(命名空间)。随着HDFS的数据越来越多,单个namenode的资源使用必然会达到上限,而且namenode的负载能力也会越来越高,限制HDFS的性能。hdfs主要有两层架构: 1.命名空间(namespace) 由目录、文件、块组成。原创 2016-05-31 20:51:13 · 13664 阅读 · 0 评论 -
hive的学习笔记2-hive源码的编译
hive架构hive的用户提交SQL的方式sql提交以后经过三个步骤hive 架构hive中支持的数据类型简单的数据类型复杂的数据类型hive的数据抽象hive的亮点hive的源码编译maven的安装修改maven的配置文件编译hive的源码hive架构hive的用户(提交SQL的方式)1.Cli(命令行) Cli(hive shell) 2.JDBC/ODBC(面向应用原创 2016-05-30 22:02:10 · 6930 阅读 · 1 评论 -
Hive的文件格式
本文转载自:http://www.cnblogs.com/Richardzhu/p/3613661.htmlhive文件存储格式包括以下几类:1、TEXTFILE2、SEQUENCEFILE3、RCFILE4、ORCFILE(0.11以后出现)其中TEXTFILE为默认格式,建表时不指定默认为这个格式,导入数据时会直接把数据文件拷贝到hdfs上不进行处理;SEQUE转载 2016-05-29 15:55:40 · 533 阅读 · 0 评论 -
索引的mapreduce实现
本文为传智播客hadoop八天——第四天的学习笔记目的:将不同文件中单词以文件为单位建立索引原创 2016-04-20 10:51:12 · 848 阅读 · 0 评论 -
Kafka消息生产消费的一个java小案例(伪分布)
本文是传智播客hadoop八天-第七天学习笔记原创 2016-05-03 21:16:51 · 3124 阅读 · 0 评论 -
HBase的javaApi一个应用(创建删除表等)
本文为传智播客hadoop八天——第六天学习笔记目的:使用HBase提供的api在eclipse中创建表,删除表,查询数据,使用过滤器有选择的查询数据在启动i原创 2016-05-01 15:49:24 · 2517 阅读 · 0 评论 -
Hive的学习笔记1-hive的安装和mysql的连接
本文为传智播客Hadoop八天——第六天学习笔记 1. 安装hive 2.安装mysql 3.关联hive和mysql 4.hive的一些基本语法和udf原创 2016-04-28 14:56:46 · 2589 阅读 · 0 评论