
hadoop
文章平均质量分 59
yoghurt2016
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
搭建集群时遇到各种奇葩问题的大招~~
用自己电脑搭建hadoop集群的时候总是会遇到各种奇葩的问题,因为虚拟机总是会比真实的环境差很多的,有些奇葩的问题真是让我郁闷不行不行的~~像这个问题,搭了三遍的集群遇见各种奇葩问题,最后找了一个终极大招:但是,但是,前提是,新搭的集群,如果HDFS里面已经有数据了,那就别用了,因为会把你的hadoopdata都清理掉的。如果,如果,真的确认自己搭建过程没有任何问题,并且配置文件正原创 2016-09-03 16:20:39 · 228 阅读 · 0 评论 -
案例十二:多文件输出MultipleOutputs
案例十二:多文件输出MultipleOutputs好几天没写什么了,今天写点工作当中比较常用的东西吧--MultipleOutputs多路径输出,这个用的也比较多,比如可以输出分区的数据,方便hive里建表,也可以分类数据,都比较方便了。下篇再说一下多格式输出。主要用到MultipleOutputs这个类。直接上代码。先贴一下数据原创 2016-10-06 20:33:38 · 563 阅读 · 0 评论 -
Zookeeper的作用以及选举机制
zookeeper:其实,我觉得要是深度理解zookeeper的工作状态挺难的,也非常深,我学完之后又看了很多大牛的博客,觉得自己理解的也不好,只能说是对zookeeper有个浅显的概念,或者浅显都称不上,觉得只是硬生生的记住了一些概念的东西,没有做过调优的工作,实在是不能写出什么东西,但是也勉强记一些我能理解的吧,毕竟这些枯燥的概念也是比较磨练心性的,能坐下来好好看一些概念不容易。后面我再贴原创 2016-10-17 14:41:57 · 9845 阅读 · 0 评论 -
Hadoop调度器小解
Hadoop 调度器之前对调度器其实了解并不是很多,貌似要涉及到比较多额算法,所以也不是很懂,现在也只能理解一下大概的工作概念而已,这些算法是大牛们干的事情啊,高深的东西,我望尘莫及啊。。。(默默的流泪中)FIFO 调度器集成在 JobTracker 中的原有调度算法被称为 FIFO。在 FIFO 调度中,JobTracker 从工作队列中拉取作业,最老的作业最先。原创 2016-10-17 13:32:44 · 326 阅读 · 0 评论 -
Sqoop迁移工具的使用
概述sqoop是Apache顶级项目,主要用来在Hadoop和关系数据库中传递数据。通过sqoop,我们可以方便的将数据从关系数据库导入到HDFS,或者将数据从HDFS导出到关系数据库。sqoop架构:sqoop架构非常简单,其整合了Hive、Hbase和Oozie,通过map-reduce任务来传输数据,从而提供并发特性和容错。sqoop的进一步发展可原创 2016-10-15 09:53:28 · 575 阅读 · 0 评论 -
HQL加载数据的几种方法小结
HQL加载数据的几种方法小结:对于没有创建分区的表(这里都以外部表为例)而言:create external table if not exists test (id int,name string) comment 'This is for test.' row format delimited fields terminated by '\t' locati原创 2016-09-25 10:35:27 · 1503 阅读 · 0 评论 -
HIVE中表之间相互联系的方式小结
HIVE中表之间相互联系的方式小结:今天总结了一下hive中表与表之间发生关联的方式,大概的有以下几种,日后再补充:先建立两张表:user+job表的数据结构:--------------------------------------------------user:user_id name1 张三2 李四3 王五create external table原创 2016-09-24 19:21:25 · 1323 阅读 · 0 评论 -
MapReducer工作流程小结
自己画了一个Mapreduce的工作流程,比较简易~~原创 2016-09-11 16:21:02 · 499 阅读 · 0 评论 -
napreduce调优三
MapReduce任务的优化相信每个程序员在编程时都会问自己两个问题“我如何完成这个任务”,以及“怎么能让程序运行得更快”。同样,MapReduce计算模型的多次优化也是为了更好地解答这两个问题。MapReduce计算模型的优化涉及了方方面面的内容,但是主要集中在两个方面:一是计算性能方面的优化;二是I/O操作方面的优化。这其中,又包含六个方面的内容。转载 2016-09-11 18:06:16 · 447 阅读 · 0 评论 -
mapreduce调优一
Cloudera提供给客户的服务内容之一就是调整和优化MapReduce job执行性能。MapReduce和HDFS组成一个复杂的分布式系统,并且它们运行着各式各样用户的代码,这样导致没有一个快速有效的规则来实现优化代码性能的目的。在我看来,调整cluster或job的运行更像一个医生对待病人一样,找出关键的“症状”,对于不同的症状有不同的诊断和处理方式。 在医学领域,没翻译 2016-09-11 18:01:44 · 401 阅读 · 0 评论 -
mapreduce调优二
map阶段优化参数:io.sort.mb(default 100)当map task开始运算,并产生中间数据时,其产生的中间结果并非直接就简单的写入磁盘。而是会利用到了内存buffer来进行已经产生的部分结果的缓存,并在内存buffer中进行一些预排序来优化整个map的性能。每一个map都会对应存在一个内存buffer,map会将已经产生的部分结果先写入到该转载 2016-09-11 18:04:20 · 301 阅读 · 0 评论 -
HDFS一些概念的理解
HDFS(Hadoop Distribute File System)分布式文件系统概念好多,枯燥不易理解,多看几遍!!1.HDFS数据存放策略:分块存储+副本存放。2.数据拓扑结构(即数据备份):默认存放3份,可以通过修改配置文件hdfs-site.xml修改备份数量,如果本机在集群中,第一份就会存放到本节点即本机上,如果不在集群中,就通过负载均衡存放到一个相应的随机原创 2016-09-11 15:15:01 · 6142 阅读 · 0 评论 -
搭建集群后再namenode上查看进程发现除了三个基本进程还可能有别的进程,例如本来在子节点出现的进程出现在了主节点上
搭建集群后再namenode上查看进程发现除了三个基本进程还可能有别的进程,例如本来在子节点出现的进程出现在了主节点上,namenode按正常来说是有三个进程的:namenode,resourcemanager,secondarynamenode,子节点上有两个进程:nodemanager,datanode,但是可能会出现本来出现在子节点上的进程出现在主节点上了,如下(请忽略3123进原创 2016-09-03 16:17:51 · 851 阅读 · 0 评论 -
解决集群搭建找不到datanode的问题
解决"no datanode to stop"问题当我停止Hadoop时发现如下信息: no datanode to stop原因:每次namenode format会重新创建一个namenodeId,而tmp/dfs/data下包含了上次format下的id,namenode format清空了namenode下的数据,但是没有清空datanode下的数据,导致启动时失败,有两原创 2016-09-03 16:19:35 · 1211 阅读 · 0 评论 -
理解yarn平台,理解万岁,肤浅理解也万岁~
理解yarn平台,理解万岁,肤浅理解也万岁~从Hadoop1到Hadoop2很大程度上解放了Jobtracker资源调度的问题,这就得多亏了yarn平台了。我知道的,除了我们的大豆瓣用的是Mesos,咱们国家可以说应该是99.99%都使用的是yarn,当然了,国外使用的大多是Mesos。(然而我对Mesos并不理解啥,只知道他和yarn一样的作用吧)Hado原创 2016-09-10 14:40:10 · 371 阅读 · 0 评论 -
案例十三:多格式文件输出MultipleOutputs
案例十二:多文件输出MultipleOutputs好几天没写什么了,今天写点工作当中比较常用的东西吧,多路径输出,下篇再说一下多格式输出。主要用到MultipleOutputs这个类。直接上代码。下面是结果,有两个都在/out/222,分别是FormatText和Fo原创 2016-10-06 20:03:03 · 725 阅读 · 0 评论