
Hadoop
斗者_2013
多年java老兵,专注微服务,中间件等热点技术,分享工作心得和技术干货
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
storm简介
场景伴随着信息科技日新月异的发展,信息呈现出爆发式的膨胀,人们获取信息的途径也更加多样、更加便捷,同时对于信息的时效性要求也越来越高。举个搜索场景中的例子,当一个卖家发布了一条宝贝信息时,他希望的当然是这个宝贝马上就可以被卖家搜索出来、点击、购买啦,相反,如果这个宝贝要等到第二天或者更久才可以被搜出来,估计这个大哥就要骂娘了。再举一个推荐的例子,如果用户昨天在淘宝上买了一双袜子,今天想买一转载 2016-03-15 18:00:05 · 419 阅读 · 0 评论 -
Storm0.9.4安装
环境:三台虚拟机,系统是CentOS6.5 1.关闭防火墙,配置hosts,添加集群中主机和IP的映射关系 ?123456[grid@hadoop4 ~]$ cat/etc/hosts127.0.0.1 localhost::1 l转载 2016-03-19 23:05:39 · 1001 阅读 · 0 评论 -
storm+kafka整合异常处理
[摘要:1 拷贝kafka依附jar包到storm lib [root@hdmaster libs]# cp kafka_2.10-0.8.2.1.jar /opt/apache-storm-0.9.5/lib/ [root@hdmaster libs]# cp scala-library-2.10.4.ja] 1 拷贝kafka依赖jar包到storm lib[root@hdmast转载 2016-03-20 21:27:52 · 7831 阅读 · 0 评论 -
Kafka安装配置测试
Kafka的整体架构:本文中的配置:在两台机器Node1和Node2上,分别部署了两个broker,Zookeeper使用的是单独的ZK集群。在每个机器上下载并解压kafka_2.10-0.8.2.1http://kafka.apache.org/downloads.htmlKafka配置Node1:ip为 172.16.21转载 2016-03-20 22:37:10 · 639 阅读 · 0 评论 -
Linux 中如何安装卸载软件
Linux软件的安装和卸载一直是困扰许多新用户的难题。在Windows中,我们可以使用软件自带的安装卸载程序或在控制面板中的“添加/删除程序” 来实现。与其相类似,在Linux下有一个功能强大的软件安装卸载工具,名为RPM。它可以用来建立、安装、查询、更新、卸载软件。该工具是在命令行下使用的。在Shell的提示符后输入rpm,就可获得该命令的帮助信息。 软件的安装 Linux下软件转载 2016-04-01 22:35:35 · 520 阅读 · 0 评论 -
HBase纪要
集群环境下的安装部署:配置一个10个节点的集群。节点的名字分别是master.foo.com,host1.foo.com到host9.foo.com。HBase master与HDFS NameNode都运行在master.foo.com上。Region服务器运行在host1.foo.com到host9.foo.com上。3个节点的ZooKeeper分别运行在zk1.foo.co原创 2016-03-09 18:11:46 · 1240 阅读 · 0 评论 -
hive纪要
用文件执行hive查询1、在系统终端下[root@cloud4 shell] Hive -f /path/to/file/withqueries.hql[root@cloud4 shell] Hive -e ‘短sql语句’ 2.在hive shell中用户可以使用source命令执行一个脚本Hive>Source /path/to/file/withq原创 2016-02-24 17:20:09 · 945 阅读 · 0 评论 -
《Linux keepalived与lvs的深入分析》三之负载调度算法
七)负载调度算法1)轮叫调度(Round Robin)(简称rr)调度器通过"轮叫"调度算法将外部请求按顺序轮流分配到集群中的真实服务器上,它均等地对待每一台服务器,而不管服务器上实际的连接数和系统负载. 测试的时候最好把delay_loop 的值减小,把persistence_timeout注释掉。让一个连接能很快的失效。 delay_lo转载 2016-04-02 18:07:37 · 1190 阅读 · 0 评论 -
Hadoop命令大全
1、列出所有Hadoop Shell支持的命令 $ bin/hadoop fs -help2、显示关于某个命令的详细信息 $ bin/hadoop fs -help command-name3、用户可使用以下命令在指定路径下查看历史日志汇总 $ bin/hadoop job -history output-dir这条命令会显示作业的细节信息,失败和终止的任务细节。转载 2016-02-25 14:01:32 · 674 阅读 · 0 评论 -
Linux环境变量配置的三个方法--/etc/profile,~/.bashrc,shell
【环境配置的原因】在windows系统下,很多软件的安装都需要设置环境变量,比如安装JAVA JDK。如果不安装环境变量,在非软件安装的目录下运行javac命令,将会报告“找不到文件”类似的错误。那么,什么是环境变量呢?简要的说,就是指定一个目录,运行软件的时候,相关的程序将会按照该目录寻找相关文件。设置变量对于一般人最实用的功能就是:不用拷贝某些dll文件到系统目录中了,而path这一系统变转载 2016-03-22 09:51:29 · 11394 阅读 · 0 评论 -
hadoop2.2.0集群的高可用HA及MapReduce简单配置
hadoop2.2.0集群的高可用HA及MapReduce简单配置http://www.aboutyun.com/thread-6781-1-1.html(出处: about云开发)简介hadoop中的NameNode好比是人的心脏,非常重要,绝对不可以停止工作。在hadoop1时代,只有一个NameNode。如果该NameNode数据丢失或者不能工作,那么整个集群就不能恢复了转载 2016-02-25 18:32:55 · 1006 阅读 · 0 评论 -
Yarn(MapReduce 2.0)下分布式缓存(DistributedCache)的注意事项
1、问题最近公司的集群从 Apache hadoop 0.20.203 升级到了 CDH 4,迈进了 Hadoop 2.0 的新时代,虽然新一代的 hadoop 努力做了架构、API 上的各种兼容, 但总有“照顾不周”的地方,下面说的这个有关分布式缓存的案例就是于此有关:一些 MR job 迁移到 Yarn 上后,发觉没数据了,而且没有报错。 查了下数据源和代码,发现是分布式缓存(Di转载 2016-07-14 16:27:38 · 2691 阅读 · 0 评论 -
Hadoop之MapReduce自定义二次排序流程实例详解
一、概述MapReduce框架对处理结果的输出会根据key值进行默认的排序,这个默认排序可以满足一部分需求,但是也是十分有限的。在我们实际的需求当中,往往有要对reduce输出结果进行二次排序的需求。对于二次排序的实现,网络上已经有很多人分享过了,但是对二次排序的实现的原理以及整个MapReduce框架的处理流程的分析还是有非常大的出入,而且部分分析是没有经过验证的。本文将通过一个实际的Map转载 2016-07-04 17:37:28 · 4965 阅读 · 1 评论 -
hive 启动问题记录 及解决方法
问题1:Caused by: javax.jdo.JDODataStoreException: Required table missing : "`VERSION`" in Catalog "" Schema "". DataNucleus requires this table to perform its persistence operations. Either your Met转载 2016-06-22 10:37:10 · 1536 阅读 · 0 评论 -
Storm集群安装部署步骤【详细版】
作者: 大圆那些事 | 文章可以转载,请以超链接形式标明文章原始出处和作者信息网址: http://www.cnblogs.com/panfeng412/archive/2012/11/30/how-to-install-and-deploy-storm-cluster.html本文以Twitter Storm官方Wiki为基础,详细描述如何快速搭建一个Storm集群,其中,项目实转载 2016-06-23 14:12:38 · 1019 阅读 · 0 评论 -
zookeeper3.4.5内存分配
原文链接zookeeper3.4.5内存分配对于zookeeper内存设置多大有些疑问,这里给大家解惑一下:首先介绍一下该如何分配内存:文件路径:zookeeper/bin/zkEnv.sh该文件已经明确说明有独立JVM内存的设置文件,路径是zookeeper/conf/Java.env安装的时候这个路径下没有有java.en转载 2016-06-23 16:06:28 · 5109 阅读 · 0 评论 -
hadoop常用命令汇总
命令汇总网络配置:hostname 查看主机名 vi /etc/sysconfig/network 设置主机名ifconfig 查看ip情况 vi /etc/sysconfig/network-scripts/ifcfg-eth0 设置网络 DEVICE=“eth0” 接口原创 2016-03-06 21:28:31 · 6813 阅读 · 0 评论 -
看懂UML类图和时序图
这里不会将UML的各种元素都提到,我只想讲讲类图中各个类之间的关系; 能看懂类图中各个类之间的线条、箭头代表什么意思后,也就足够应对 日常的工作和交流; 同时,我们应该能将类图所表达的含义和最终的代码对应起来; 有了这些知识,看后面章节的设计模式结构图就没有什么问题了;本章所有图形使用Enterprise Architect 9.2来画,所有示例详见根目录下的design_patterns.E转载 2016-02-20 21:22:11 · 551 阅读 · 0 评论 -
hadoop安装过程命令汇总
命令汇总网络配置:hostname 查看主机名 vi /etc/sysconfig/network 设置主机名ifconfig 查看ip情况 vi /etc/sysconfig/network-scripts/ifcfg-eth0 设置网络 DEVICE=“eth0” 接口原创 2016-03-16 21:32:42 · 708 阅读 · 0 评论 -
Storm实战常见问题及解决方案
文档说明该文档包涵了storm实战中经常遇到一些问题,及对应解决方案。这个文档是群里一个朋友在学习storm,并实战storm中遇到的一些问题,及和群里其他朋友一起交流给出的对应解决方案,并由他整理好,委托我发布出来(也算是交流者之一),供大家参考,希望能对大家有所帮助。感谢 某某(哈哈 鉴于部分原因,不便透露名字~~~~!)…问题锦集1 关于Storm集群1.1 关于转载 2016-02-18 15:27:38 · 2429 阅读 · 0 评论 -
Storm命令行客户端
在Linux终端直接输入storm,不带任何参数信息,或者输入storm help,可以查看Storm命令行客户端(Command line client)提供的帮助信息。 Storm 0.9.0.1版本在Linux终端直接输入storm后的输出内容如下:Commands:activateclasspathdeactivatedev-zook转载 2016-02-18 15:34:26 · 944 阅读 · 0 评论 -
storm提交拓扑后出现Executor topology_name not alive的问题
1 bolt不停重启,excutor无法启动。nimbus日志类似如下(), 2014-03-12 10:55:06 b.s.d.nimbus [INFO] Executor MITAS3-74-1394565794:[3434] not alive2014-03-12 10:55:06 b.s.d.nimbus [INFO] Executor MITAS3-74-1394565794转载 2016-02-18 16:26:00 · 3028 阅读 · 0 评论 -
hadoop+zookepper实现namenode的高可用
Hadoop+zookeepker安装与配置: 在hadoop-env.sh中添加export JAVA的环境变量修改hostname文件的名称,/etc/hosts文件配置主机名和ip的映射关系,将mstaer,slave的主机名和ip地址都添加进来 配置ssh免密钥配置Ssh-keygen –t rsa在./.ssh文件中生成两个文件id转载 2016-02-18 16:32:37 · 917 阅读 · 0 评论 -
Hadoop、Storm、Spark这三个大数据平台有啥区别,各有啥应用场景?
Storm与Spark、Hadoop这三种框架,各有各的优点,每个框架都有自己的最佳应用场景。所以,在不同的应用场景下,应该选择不同的框架。Storm是最佳的流式计算框架,Storm由Java和Clojure写成,Storm的优点是全内存计算,所以它的定位是分布式实时计算系统,按照Storm作者的说法,Storm对于实时计算的意义类似于Hadoop对于批处理的意义。Storm的适用转载 2016-02-18 17:26:25 · 22994 阅读 · 0 评论 -
ZooKeeper集群环境部署
ZooKeeper简介ZooKeeper是针对分布式应用的高性能协调服务,是高效可靠的协同工作系统,提供的功能包括配置维护,名字服务,分布式同步,组服务等。 ZooKeeper的下载和部署1.1 ZooKeeper的下载下载地址:http://zookeeper.apache.org/releases.html#download 1.2 ZooK转载 2016-02-18 21:47:05 · 712 阅读 · 0 评论 -
Storm本地模式环境问题
Storm本地模式环境问题运行从github上把 storm-starter的代码 fork下来https://github.com/nathanmarz/storm-starter将m2-pom.xml重命名为pom.xml,编译一下,导入eclipse里 运行第一个例子ExclamationTopology 问题1java.net.SocketExc转载 2016-02-19 01:06:57 · 6190 阅读 · 0 评论 -
storm单词计数实例
storm有两种运行模式(本地模式和集群模式) 1、 首先创建一个类似于HelloWorld的简单程序,以便进入storm的大门,包结构如下: 2、从包结构可以知道,这是一个Maven Project,pom.xml的内容如下: http://maven.apache.org/POM/4.0.0"转载 2016-02-19 01:25:57 · 2136 阅读 · 0 评论 -
ssh无密码验证登陆配置
2、SSH无密码验证配置 Hadoop运行过程中需要管理远端Hadoop守护进程,在Hadoop启动以后,NameNode是通过SSH(Secure Shell)来启动和停止各个DataNode上的各种守护进程的。这就必须在节点之间执行指令的时候是不需要输入密码的形式,故我们需要配置SSH运用无密码公钥认证的形式,这样NameNode使用SSH无密码登录并启动DataName进程,同样原转载 2016-02-19 10:21:45 · 4815 阅读 · 0 评论 -
局域网中Linux主机之间同步时间的一种简便方法
几天在实验室用淘汰的pc搭了一个8个节点的小集群做hama的实验,从重新组装硬件到装系统、配置集群,忙了两天,满身都是灰。安装集群时,经常需要同步各个节点之间的系统时间,例如hbase集群中,过大的时间差可能会导致诡异的问题对于几个节点的小集群,可以用NTP(network time protocol)同步时间,而且手动就可以:选择局域网中的一台机器作为ntp服务器,在这台转载 2016-03-17 22:45:34 · 1610 阅读 · 0 评论 -
Linux下安装、开启Telnet服务
思考:1. 检测Linux下telnet服务存不存在。2. 存在则打开,不存在则安装。步骤:1. 使用telnet远程连接目标主机(本例使用Xshell)Xshell:\> telnet 192.168.80.218Connecting to 192.168.80.218:23...Could not connect to '192.168.80.218'转载 2016-03-17 23:21:47 · 2222 阅读 · 0 评论 -
模拟namenode宕机:数据块损坏,该如何修复
数据块损坏,有很多同学想修复,但是不知道方法,首先我们看下面一段话:有了block,提供数据容错和可用性的冗余备份(replication)机制可以更好的工作。在HDFS中,为了防止数据块损坏,或者磁盘及机器当机,每一个block在不同机器上都有几份备份(默认为3)。如果一个block不能用了,HDFS会以一种对用户透明的方式拷贝一份新的备份出来,从而把集群的数据安全级别恢复到转载 2016-03-18 00:04:48 · 5803 阅读 · 0 评论 -
别老扯什么Hadoop了,你的数据根本不够大
本文原名“Don't use Hadoop when your data isn't that big ”,出自有着多年从业经验的数据科学家Chris Stucchio,纽约大学柯朗研究所博士后,搞过高频交易平台,当过创业公司的CTO,更习惯称自己为统计学者。对了,他现在自己创业,提供数据分析、推荐优化咨询服务,他的邮件是:stucchio@gmail.com 。“你有多少大数据和转载 2016-03-18 00:16:54 · 563 阅读 · 0 评论 -
Storm集群常用批量操作命令
假设集群有100个节点,主机名分别为node1,node2,node3……node100。对于node1节点ssh到其他节点,已经实现了ssh无密码访问。1.关闭集群的防火墙(运行在root用户下)For i in (seq 1 100 ); Do ssh node$i “hostname; service iptable stop; ch转载 2016-02-19 15:07:46 · 1334 阅读 · 0 评论 -
hbase热点问题(数据倾斜)解决方案---rowkey散列和预分区设计
Hbase的表会被划分为1....n个Region,被托管在RegionServer中。Region二个重要的属性:Startkey与EndKey表示这个Region维护的rowkey的范围,当我们要读写数据时,如果rowkey落在某个start-end key范围内,那么就会定位到目标region并且读写到相关的数据。 默认情况下,当我们通过hbaseAdmin指定TableDes转载 2017-06-12 22:39:02 · 3652 阅读 · 0 评论