
hadoop
buster2014
没有比人更高的山,没有比脚更长的路...
展开
-
通过maven-shade-plugin 解决Elasticsearch与hbase的jar包冲突问题
http://blog.youkuaiyun.com/sunshine920103/article/details/51659936今天在项目中集成hbase1.0.0-cdh5.5.2和ElasticSearch2.2.0时出现了问题,原先在集成Hbase时,引入了架包com.google.guava(16.0版本),后来在集成ES时发现es中也用到了guava的18.0版本转载 2017-01-06 14:22:05 · 1242 阅读 · 0 评论 -
Hadoop集群中引入新DataNode节点
文章来源:http://anyoneking.com/archives/594Hadoop集群中引入新DataNode节点2013-04-10 19:34 | By: 懒散狂徒 | Hadoop | 13,717 views | 抢沙发 | 例如新增的节点ip为192.168.1.xxx在所有nn和dn节点上增加192.168.1.xxx转载 2016-01-15 21:15:58 · 723 阅读 · 0 评论 -
hadoop数据节点通信异常【启动hadoop集群遇到错误org.apache.hadoop.ipc.Client: Retrying connect to server】
文章来源:http://anyoneking.com/archives/594hadoop数据节点通信异常2013-04-21 16:37 | By: 懒散狂徒 | Hadoop | 13,898 views | 抢沙发 | 在前几天,我们的hadoop集群很不稳定。经常会有1个数据节点挂掉。使用jps查看,tasktracker和datanode均正转载 2016-01-15 20:49:38 · 4138 阅读 · 0 评论 -
spark1.3.0__for_hadoop2.4.1编译、安装与初步测试
文章来源:http://blog.youkuaiyun.com/javastart/article/details/44558997spark1.3.0__for_hadoop2.4.1编译、安装与初步测试分类: 大数据2015-03-23 08:33 2834人阅读 评论(0) 收藏 举报--- 这个是一个朋友整理的。比较详细有保存价值。-- 参考: ht转载 2015-11-19 20:16:00 · 843 阅读 · 0 评论 -
linux中bridge mode和NAT mode成功ping www.baidu.com必须注意检查核对的地方[操作系统为centos6.6版本]
ip设置,网关设置,主机名设置,ip和主机名映射关系设置,域名服务器设置① /etc/sysconfig/network-scripts/ifcfg-eth0 修改IPADDR、NETMASK、GATEWAY、DHCP[static或者dynamic]② /etc/sysconfig/network/ ...原创 2015-04-04 17:22:00 · 1398 阅读 · 0 评论 -
Ambari系列(二):编译安装Ambari
Ambari系列(二):编译安装Ambari分类: Hadoop2014-12-27 09:16 874人阅读 评论(2) 收藏 举报AmbariHDPhadoop编译目录(?)[+]1.2 需要安装的工具1.2.1 安装JDK输入命令[root@bigData-02 ~]# java –version转载 2015-11-16 13:07:11 · 2583 阅读 · 1 评论 -
Hadoop集群(第7期)_Eclipse开发环境设置
文章来源:http://www.cnblogs.com/xia520pi/archive/2012/05/20/2510723.htmlHadoop集群(第7期)_Eclipse开发环境设置1、Hadoop开发环境简介1.1 Hadoop集群简介 Java版本:jdk-6u31-linux-i586.bin Linux系统:CentOS6转载 2015-11-16 18:17:48 · 396 阅读 · 0 评论 -
Ambari系列(一):在离线环境中自动化安装Hadoop集群
文章来源:http://blog.youkuaiyun.com/shifenglov/article/details/41831983 Ambari系列(一):在离线环境中自动化安装Hadoop集群分类: Hadoop2014-12-09 21:56 1562人阅读 评论(1) 收藏 举报ambari离线安装Hadoop自动化机器部署:c转载 2015-11-16 10:29:08 · 962 阅读 · 0 评论 -
CDH使用秘籍(二):cloudera Manager中监控数据的存储
文章来源:http://blog.youkuaiyun.com/shifenglov/article/details/41281399 CDH使用秘籍(二):cloudera Manager中监控数据的存储分类: Hadoop2014-11-19 14:18 1951人阅读 评论(0) 收藏 举报CDHCloudera ManagerManaged Servic转载 2015-11-16 08:43:24 · 685 阅读 · 0 评论 -
大数据平台监控(二):Ganglia与Nagios的整合
文章来源:http://blog.youkuaiyun.com/shifenglov/article/details/40658007 大数据平台监控(二):Ganglia与Nagios的整合分类: linux2014-10-31 17:29 850人阅读 评论(1) 收藏 举报监控大数据平台nagiosganglia基本介绍Ganglia:Ga转载 2015-11-16 13:12:17 · 1212 阅读 · 0 评论 -
CDH使用秘籍(一):Cloudera Manager和Managed Service的数据库
文章来源:http://blog.youkuaiyun.com/shifenglov/article/details/41115001 CDH使用秘籍(一文章来源):Cloudera Manager和Managed Service的数据库分类: Hadoop2014-11-14 10:51 1130人阅读 评论(0) 收藏 举报CDHCloudera Manager转载 2015-11-16 08:41:27 · 642 阅读 · 0 评论 -
Twitter Storm: 在生产集群上运行topology【topology级的配置】
文章来源:http://www.linuxidc.com/Linux/2014-04/99656.htm在生产集群上运行topology跟本地模式差不多。下面是步骤:1)定义topology(如果是java的话, 用TopologyBuilder)2) 使用StormSubmitter来把topology提交到集群。StormSubmitter的参数有:topo转载 2015-10-25 22:11:05 · 460 阅读 · 0 评论 -
STORM启动与部署TOPOLOGY
文章来源:http://www.blogjava.net/paulwong/archive/2013/09/11/403942.htmlSTORM启动与部署TOPOLOGY启动ZOOPKEEPERzkServer.sh start启动NIMBUSstorm nimbus &启动SUPERVISORstorm supervisor &启转载 2015-10-25 22:16:02 · 1695 阅读 · 0 评论 -
LRU缓存介绍与实现 (Java)
文章来源:http://blog.youkuaiyun.com/beiyeqingteng/article/details/7010411引子:我们平时总会有一个电话本记录所有朋友的电话,但是,如果有朋友经常联系,那些朋友的电话号码不用翻电话本我们也能记住,但是,如果长时间没有联系了,要再次联系那位朋友的时候,我们又不得不求助电话本,但是,通过电话本查找还是很费时间的。但是,我们大脑能够记转载 2015-11-28 16:43:44 · 468 阅读 · 0 评论 -
缓存淘汰算法--LRU算法【最近最少使用算法LRU置换策略适用于热点数据比较多的场景】
文章来源:http://flychao88.iteye.com/blog/1977653缓存淘汰算法--LRU算法博客分类: java基础 1. LRU1.1. 原理LRU(Least recently used,最近最少使用)算法根据数据的历史访问记录来进行淘汰数据,其核心思想是“如果数据最近被访问过,那么将来被访问的几率也更高转载 2015-11-28 16:27:28 · 10633 阅读 · 0 评论 -
gpssh-exkeys ganglia perf stat【gp管理集群文件】
http://blog.youkuaiyun.com/rgb_rgb/article/details/20713655转载 2015-12-24 11:08:12 · 2086 阅读 · 0 评论 -
hbase 表数据迁移
http://blog.youkuaiyun.com/xiao_jun_0820/article/details/286155571 CopyTable 工具用法:CopyTable is a utility that can copy part or of all of a table, either to the same cluster or anothe转载 2016-04-07 16:25:59 · 665 阅读 · 0 评论 -
如何执行hbase 的mapreduce job
http://blog.youkuaiyun.com/xiao_jun_0820/article/details/28636309执行hbase mapreduce的两种方法:1 使用hadoop命令执行mapreduce job. 采用此方式需要修改hadoop-env.sh,将hbase相关的jar包加入到HADOOP_CLASSPATH中去,写法如下: exp转载 2016-04-07 16:25:07 · 921 阅读 · 0 评论 -
HBase依赖的tomcat:jasper-compiler和tomcat:jasper-runtime搞得我web页面的JSP访问失败
http://www.cnblogs.com/nexiyi/p/hbase_dependency_problem.html引入HBase依赖包带来的麻烦在一个项目里用到HBase做底层存储,使用maven来管理相关Jar包依赖,用maven来管理依赖包,特别不爽的就是他会将你引入Jar包自己的依赖都搞进来,经常会出现一些类和方法冲突找不到等状况。这次,也被这个搞转载 2016-04-07 16:21:49 · 3005 阅读 · 0 评论 -
浅谈hadoop中mapreduce的文件分发
http://www.it165.net/pro/html/201405/14740.html最近在做数据分析的时候,需要在mapreduce中调用c语言写的接口,此时就需要把动态链接库so文件分发到hadoop的各个节点上,原来想自己来做这个分发,大概过程就是把so文件放在hdfs上面,然后做mapreduce的时候把so文件从hdfs下载到本地,转载 2016-04-07 16:15:27 · 1411 阅读 · 0 评论 -
MapReduce程式调用第三方包
MapReduce程式调用第三方包:我在使用过程中需要用到hbase的jar包,若要使用,常规是添加到每台机器的classpath中,但是通过DistributeCache,在初始化前加入就ok了。要不就要将这些jar包打成一个新jar,通过hadoop jar XXX.jar运行,但是不利于代码更新和维护。解决方法介绍:我们知道,在Hadoop中有一个叫做Distrib转载 2016-04-07 16:07:07 · 417 阅读 · 0 评论 -
Hadoop DistributedCache使用及原理
http://blog.youkuaiyun.com/xiaolang85/article/details/11782539概览DistributedCache 是一个提供给Map/Reduce框架的工具,用来缓存文件(text, archives, jars and so on)文件的默认访问协议为(hdfs://). DistributedCac转载 2016-04-07 10:36:27 · 658 阅读 · 0 评论 -
hadoop mapreduce核心功能描述
http://www.open-open.com/lib/view/open1337349822015.html核心功能描述应用程序通常会通过提供map和reduce来实现 Mapper和Reducer接口,它们组成作业的核心。MapperMapper将输入键值对(key/value pair)映射到一组中间格式的键值对集合。转载 2016-04-07 10:15:19 · 770 阅读 · 0 评论 -
使用ToolRunner运行Hadoop程序基本原理分析
http://blog.youkuaiyun.com/jediael_lu/article/details/38751885 为了简化命令行方式运行作业,Hadoop自带了一些辅助类。GenericOptionsParser是一个类,用来解释常用的Hadoop命令行选项,并根据需要,为Configuration对象设置相应的取值。通常不直接使用GenericOptionsParse转载 2016-04-07 09:56:23 · 399 阅读 · 0 评论 -
大数据平台监控(一):Ganglia在集群中快速安装方案【内含通过yum只下载不安装,需要安装一个yum的插件】
文章来源:http://blog.youkuaiyun.com/shifenglov/article/details/40587527 大数据平台监控(一):Ganglia在集群中快速安装方案分类: linux2014-10-29 15:55 554人阅读 评论(0) 收藏 举报集群ganglia快速安装ganglia安装集群监控基本介绍转载 2015-11-16 13:10:17 · 877 阅读 · 0 评论 -
Lambda架构与推荐在电商网站实践
Lambda架构与推荐在电商网站实践2015-11-24 16:36| 发布者: 炼数成金_小数| 查看: 14636| 评论: 0|原作者: 王富平|来自: 高可用架构摘要: 高可用架构分享及传播在架构领域具有典型意义的文章,本文根据王富平分享记录。转载请注明高可用架构公众号ArchNotes。王富平现为1号店搜索与精准化部门架构师,之前在百度从事数据挖掘相关工作转载 2016-03-12 22:43:13 · 1554 阅读 · 0 评论 -
Hadoop 2.2 & HBase 0.96 Maven 依赖总结
http://blog.youkuaiyun.com/huoyunshen88/article/details/39083247由于Hbase 0.94对Hadoop 2.x的支持不是非常好,故直接添加Hbase 0.94的jar依赖可能会导致问题。 但是直接添加Hbase0.96的依赖,由于官方并没有发布Hbase 0.96的jar包,通过maven编译项目的时候会出现找不到转载 2016-04-06 09:30:16 · 470 阅读 · 0 评论 -
Mapreduce部署与第三方依赖包管理【hadoop mapreduce第三方jar包maven管理瘦身版本和臃肿版本各取所需】
http://www.tuicool.com/articles/6NjQ7fmMapreduce部署是总会涉及到第三方包依赖问题,这些第三方包配置的方式不同,会对mapreduce的部署便捷性有一些影响,有时候还会导致脚本出错。本文介绍几种常用的配置方式:1. HADOOP_CLASSPATH 在hadoop的相关配置文件中,添加CLASSPA转载 2016-04-05 17:38:45 · 2720 阅读 · 0 评论 -
实时分布式具备高容错性的计算系统storm------核心topology架构图和storm运行topology的工作流程图
文章来源:http://blog.youkuaiyun.com/yangbutao/article/details/8445630 hadoop一般用在离线的分析计算中,而storm区别于hadoop,用在实时的流式计算中,被广泛用来进行实时日志处理、实时统计、实时风控等场景,当然也可以用在对数据进行实时初步的加工,存储到分布式数据库中如HBase,便于后续的查询。 面对的大转载 2015-10-25 15:35:35 · 1909 阅读 · 0 评论 -
Hadoop应用-------Hadoop计算能力调度器(Capacity Scheduler)应用和配置{hadoop mradmin -refreshQueues动态更新队列和容量}其他调度器比较
文章来源:http://www.cnblogs.com/ggjucheng/archive/2012/07/25/2608817.htmlHadoop计算能力调度器应用和配置需求公司里有两个部门,一个叫hive,一个叫pig,这两个部门都需要使用公司里的hadoop集群。于是问题来了,因为hadoop默认是FIFO调度的,谁先提交任务,谁先被处理,于是hive部转载 2015-10-25 07:26:18 · 2078 阅读 · 0 评论 -
YARN ResourceManager调度器的分析以及文件压缩
文章来源:http://tech.uc.cn/?p=1438YARN ResourceManager调度器的分析Posted by qus jiawei on 2013 年 6 月 20 日YARN是Hadoop新版中的资源控制框架。本文旨在深入剖析ResourceManager的调度器,探讨三种调度器的设计侧重,最后给出一些配置转载 2015-10-25 08:10:57 · 803 阅读 · 0 评论 -
crond不执行原因分析【必须检查的几个地方,详见文章内容】
文章来源:http://blog.youkuaiyun.com/doc_sgl/article/details/41653641自己写了个脚本,让crond来周期性执行脚本进行备份,但是在crontab -e里面加入了执行脚本之后,发现没有执行,后来分析了一下,crond不执行的原因主要有以下几个方面:1、crond服务没启动service crond start转载 2015-06-04 12:13:32 · 2043 阅读 · 0 评论 -
实战-----使用crond 在linux中定时执行任务
文章来源:实战:http://www.im286.com/thread-5000085-1-1.html使用crond 在linux中定时执行任务 定期运行程序或者脚本是管理员要面临一个很普遍的问题 一、 使用crond监控程序运行程序 1. 使用cron来定期执行任务 使用crond (cron监控程序)来定期运行一些任务,比如备份转载 2015-06-04 12:08:41 · 561 阅读 · 0 评论 -
读shell基础:执行顺序(||及&&,{}及())及正则表表达式 【()和{}的用处】
文章来源:http://blog.chinaunix.net/uid-23733005-id-76686.html【多篇文章将shell基础,可以去观看】读完这个,&&和||仍然没有花心思去看,所以还木有理解。先说说后面的正则表达式吧!觉得挺好玩的!之前先看看()和{}的区别:(注意:前括后的后面和后括号的前面是有空格的)当你希望执行读多个命令的时候,会用到上面的两个括号。转载 2015-06-03 14:15:41 · 933 阅读 · 0 评论 -
使用crontab,让linux定时执行shell脚本【crontab -e】
文章来源:http://blog.youkuaiyun.com/allenlinrui/article/details/7490206使用crontab你可以在指定的时间执行一个shell脚本或者一系列Linux命令。例如系统管理员安排一个备份任务使其每天都运行入门# crontab –e这样可以已编辑模式打开个人的crontab配置文件,然后加入一下这行:转载 2015-06-03 18:19:07 · 5963 阅读 · 0 评论 -
linux shell 按行循环读入文件方法
文章来源:http://blog.youkuaiyun.com/hittata/article/details/7042779linux shell 按行循环读入文件常用代码如下:[html] view plaincopy#/bin/bash printf "****************************转载 2015-06-03 17:23:50 · 2687 阅读 · 0 评论 -
shell脚本中echo显示内容带颜色 【常用】
文章来源:http://www.cnblogs.com/lr-ting/archive/2013/02/28/2936792.htmlshell脚本中echo显示内容带颜色显示,echo显示带颜色,需要使用参数-e 格式如下: echo -e "\033[字背景颜色;文字颜色m字符串\033[0m" 例如: echo -e "\033[41;36m so转载 2015-06-03 11:53:46 · 1015 阅读 · 0 评论 -
cui-----巧用备份数节省hdfs空间
文章来源:http://blog.youkuaiyun.com/cuilanbo/article/details/8469938我们最近遇到一个问题,hdfs硬盘空间不足。各位有没有遇到类似的问题呢?仔细分析了一下,发现hdfs下有这样一类文件,留之无大用,弃之可惜。比如说最原始的日志文件........本来留下他是用来做保险的,但是不一定能用的上,并且占据很大空间转载 2015-05-27 09:43:04 · 445 阅读 · 0 评论 -
cui-----Hadoop动态添加删除datanode及tasktracker【需要整理】
文章来源:首先建议datanode和tasktracker分开写独立的exclude文件,因为一个节点即可以同时是datanode和tasktracker,也可以单独是datanode或tasktracker。 1、删除datanode修改namenode上的hdfs-site.xml[plain] view plaincopypri转载 2015-05-27 09:37:47 · 502 阅读 · 0 评论 -
添加和删除hadoop集群中的节点
1:添加节点A:新节点中添加账户,设置无密码登陆B:Name节点中设置到新节点的无密码登陆C:在Name节点slaves文件中添加新节点D:在所有节点/etc/hosts文件中增加新节点(所有节点保持一致)E:在新节点中执行./bin/hadoop-daemon.sh start datanode./bin/hadoop-daemon.sh start tas转载 2015-04-22 22:00:53 · 967 阅读 · 0 评论