hadoop
_delin
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Hbase安装
hbase安装export HBASE_HOME=/home/hadoop/hbase-1.0.1export PATH=$PATH:$HBASE_HOME/binvi conf/hbase-env.shexport JAVA_HOME=/usr/java/jdk1.7.0_65export HBASE_MANAGES_ZK=truevi hbase-sit原创 2016-05-25 10:17:10 · 337 阅读 · 0 评论 -
Spark集群硬件挑选
Spark 开发者都会反应一个常见问题,如何为 Spark 配置硬件。然而正确的硬件配置取决于使用的场景,我们提出以下建议。存储系统因为大多数 Spark 作业都很可能必须从外部存储系统(例如 Hadoop 文件系统或者 HBase )读取输入的数据,所以部署 Spark 时尽可能靠近这些系统是很重要的。我们建议如下:如果可以,在 HDFS 相同的节转载 2016-12-19 16:25:16 · 1646 阅读 · 0 评论 -
Hadoop 集群如何选择合适的硬件
随着Apache Hadoop的起步,云客户的增多面临的首要问题就是如何为他们新的的Hadoop集群选择合适的硬件。尽管Hadoop被设计为运行在行业标准的硬件上,提出一个理想的集群配置不想提供硬件规格列表那么简单。 选择硬件,为给定的负载在性能和经济性提供最佳平衡是需要测试和验证其有效性。(比如,IO密集型工作负载的用户将会为每个核心主轴投资更多)。在这个博客帖子中,你将会学到一转载 2016-12-19 16:23:07 · 1867 阅读 · 0 评论 -
azkaban集群多节点模式配置
配置多节点执行服务器的时候,需要在AzkabanWebServer的配置文件azkaban.properties里添加azkaban.use.multiple.executors=trueazkaban.executorselector.filters=StaticRemainingFlowSize,MinimumFreeMemory,CpuStatusazkaban.executorse原创 2016-12-19 16:28:55 · 9392 阅读 · 0 评论 -
java8实现spark wordcount并且按照value排序输出
最近在学习spark,本来应该是使用scala编程,但是无奈scala没接触过,还得学,就先使用java的spark api练练手,其实发现java8的函数式编程跟scala很多地方异曲同工啊,搞定spark的java api后面学scala应该事半功倍! 最开始当然是万年不变的wordcount,加了个排序输出,具体看注释.原创 2016-12-14 15:26:59 · 4340 阅读 · 0 评论 -
hadoop伪分布式环境搭建记录
Hadoop快3个月没接触了,这阶段全是阿里云的东西,乘着领导让我给同事讲讲Hadoop的机会,复习下Hadoop的知识。hadoop伪分布式环境搭建记录201605111.解压hadoop、jdk压缩包tar -xvzf hadoop-2.6.0.tar.gztar -xvzf jdk-7u79-linux-x64.tar.gz2.环境变量添加vi ~/.bash原创 2016-05-12 18:08:11 · 665 阅读 · 0 评论 -
ambari坑记录
问题一: 此问题是在安装注册主机时遇到的 (‘ERROR 2015-02-06 20:09:43,441 NetUtil.py:56 - [Errno 1] _ssl.c:492: error:100AE081:elliptic curve routines:EC_GROUP_new_by_curve_name:unknown group ERROR 2015-02-06 20:09:43,4原创 2016-10-14 15:17:49 · 4587 阅读 · 0 评论 -
Hive常用优化方法
1、join连接时的优化:当三个或多个以上的表进行join操作时,如果每个on使用相同的字段连接时只会产生一个mapreduce。 2、join连接时的优化:当多个表进行查询时,从左到右表的大小顺序应该是从小到大。原因:hive在对每行记录操作时会把其他表先缓存起来,直到扫描最后的表进行计算 3、在where字句中增加分区过滤器。 4、当可以使用left semi join 语法时不要使用in原创 2016-10-20 11:19:41 · 532 阅读 · 0 评论 -
ambari离线安装以及hadoop环境搭建详细过程
ambari离线安装以及hadoop集群搭建详细过程原创 2016-10-14 14:13:39 · 9035 阅读 · 0 评论 -
一些分布式计算框架
1) MapReduce: 这个框架人人皆知,它是一种离线计算框架,将一个算法抽象成Map和Reduce两个阶段进行处理,非常适合数据密集型计算。 2) Spark: 我们知道,MapReduce计算框架不适合(不是不能做,是不适合,效率太低)迭代计算(常见于machine learning领域,比如PageRank)和交互式计算(data mining领域,比如SQL查询),MapReduc原创 2016-06-14 11:14:48 · 3624 阅读 · 0 评论 -
启动hive报错:[ERROR] Terminal initialization failed; falling back to unsupported
是因为jline版本太低造成,复制hive下的jline jar包到Hadoop下即可。原创 2016-05-12 20:54:00 · 938 阅读 · 0 评论 -
java8下spark-streaming结合kafka编程(spark 2.0 & kafka 0.10)
前面有说道spark-streaming的简单demo,也有说到kafka成功跑通的例子,这里就结合二者,也是常用的使用之一。1.相关组件版本 首先确认版本,因为跟之前的版本有些不一样,所以才有必要记录下,另外仍然没有使用scala,使用java8,spark 2.0.0,kafka 0.10。2.引入maven包 网上找了一些结合的例子,但是跟我当前版本不一样,所以根本就成功不了,所以探究了下原创 2016-12-26 19:45:14 · 17727 阅读 · 4 评论
分享