
hadoop应用
文章平均质量分 93
buster2014
没有比人更高的山,没有比脚更长的路...
展开
-
Hadoop应用-------Hadoop计算能力调度器(Capacity Scheduler)应用和配置{hadoop mradmin -refreshQueues动态更新队列和容量}其他调度器比较
文章来源:http://www.cnblogs.com/ggjucheng/archive/2012/07/25/2608817.htmlHadoop计算能力调度器应用和配置需求公司里有两个部门,一个叫hive,一个叫pig,这两个部门都需要使用公司里的hadoop集群。于是问题来了,因为hadoop默认是FIFO调度的,谁先提交任务,谁先被处理,于是hive部转载 2015-10-25 07:26:18 · 2078 阅读 · 0 评论 -
Linux下iptables 禁止端口和开放端口(仅供参考,里面含有iptables如何指定允许外网访问的端口号范围,以及对局域网的ip全部开放端口)
文章来源:http://blog.youkuaiyun.com/zht666/article/details/17505789 Linux下iptables 禁止端口和开放端口2013-12-23 15:45 13301人阅读 评论(0) 收藏 举报 分类:Ubuntu/Linux(17) 目录(?)[+]转载 2015-11-27 15:39:57 · 23066 阅读 · 0 评论 -
Linux在添加防火墙规则中如何让某一段的ip地址可以和服务器的数据互访?
-A的意思是在原规则的后边添加新规则-i表示进入接口,比如eth0、lo等,与INPUT链对应-s表示源地址-j后边跟动作,比如丢弃、接收或者记录等iptables -A INPUT -i eth0 -s 192.168.1.0/24 -j ACCEPTiptables -D INPUT -i eth0 -s 192.168.1.0/24 -j AC转载 2015-11-27 16:11:24 · 1414 阅读 · 0 评论 -
gpssh-exkeys ganglia perf stat【gp管理集群文件】
http://blog.youkuaiyun.com/rgb_rgb/article/details/20713655转载 2015-12-24 11:08:12 · 2086 阅读 · 0 评论 -
Mapreduce部署与第三方依赖包管理【hadoop mapreduce第三方jar包maven管理瘦身版本和臃肿版本各取所需】
http://www.tuicool.com/articles/6NjQ7fmMapreduce部署是总会涉及到第三方包依赖问题,这些第三方包配置的方式不同,会对mapreduce的部署便捷性有一些影响,有时候还会导致脚本出错。本文介绍几种常用的配置方式:1. HADOOP_CLASSPATH 在hadoop的相关配置文件中,添加CLASSPA转载 2016-04-05 17:38:45 · 2720 阅读 · 0 评论 -
Hadoop 2.2 & HBase 0.96 Maven 依赖总结
http://blog.youkuaiyun.com/huoyunshen88/article/details/39083247由于Hbase 0.94对Hadoop 2.x的支持不是非常好,故直接添加Hbase 0.94的jar依赖可能会导致问题。 但是直接添加Hbase0.96的依赖,由于官方并没有发布Hbase 0.96的jar包,通过maven编译项目的时候会出现找不到转载 2016-04-06 09:30:16 · 470 阅读 · 0 评论 -
大数据平台监控(一):Ganglia在集群中快速安装方案【内含通过yum只下载不安装,需要安装一个yum的插件】
文章来源:http://blog.youkuaiyun.com/shifenglov/article/details/40587527 大数据平台监控(一):Ganglia在集群中快速安装方案分类: linux2014-10-29 15:55 554人阅读 评论(0) 收藏 举报集群ganglia快速安装ganglia安装集群监控基本介绍转载 2015-11-16 13:10:17 · 877 阅读 · 0 评论 -
使用ToolRunner运行Hadoop程序基本原理分析
http://blog.youkuaiyun.com/jediael_lu/article/details/38751885 为了简化命令行方式运行作业,Hadoop自带了一些辅助类。GenericOptionsParser是一个类,用来解释常用的Hadoop命令行选项,并根据需要,为Configuration对象设置相应的取值。通常不直接使用GenericOptionsParse转载 2016-04-07 09:56:23 · 399 阅读 · 0 评论 -
hadoop mapreduce核心功能描述
http://www.open-open.com/lib/view/open1337349822015.html核心功能描述应用程序通常会通过提供map和reduce来实现 Mapper和Reducer接口,它们组成作业的核心。MapperMapper将输入键值对(key/value pair)映射到一组中间格式的键值对集合。转载 2016-04-07 10:15:19 · 770 阅读 · 0 评论 -
Hadoop DistributedCache使用及原理
http://blog.youkuaiyun.com/xiaolang85/article/details/11782539概览DistributedCache 是一个提供给Map/Reduce框架的工具,用来缓存文件(text, archives, jars and so on)文件的默认访问协议为(hdfs://). DistributedCac转载 2016-04-07 10:36:27 · 658 阅读 · 0 评论 -
MapReduce程式调用第三方包
MapReduce程式调用第三方包:我在使用过程中需要用到hbase的jar包,若要使用,常规是添加到每台机器的classpath中,但是通过DistributeCache,在初始化前加入就ok了。要不就要将这些jar包打成一个新jar,通过hadoop jar XXX.jar运行,但是不利于代码更新和维护。解决方法介绍:我们知道,在Hadoop中有一个叫做Distrib转载 2016-04-07 16:07:07 · 417 阅读 · 0 评论 -
浅谈hadoop中mapreduce的文件分发
http://www.it165.net/pro/html/201405/14740.html最近在做数据分析的时候,需要在mapreduce中调用c语言写的接口,此时就需要把动态链接库so文件分发到hadoop的各个节点上,原来想自己来做这个分发,大概过程就是把so文件放在hdfs上面,然后做mapreduce的时候把so文件从hdfs下载到本地,转载 2016-04-07 16:15:27 · 1411 阅读 · 0 评论 -
HBase依赖的tomcat:jasper-compiler和tomcat:jasper-runtime搞得我web页面的JSP访问失败
http://www.cnblogs.com/nexiyi/p/hbase_dependency_problem.html引入HBase依赖包带来的麻烦在一个项目里用到HBase做底层存储,使用maven来管理相关Jar包依赖,用maven来管理依赖包,特别不爽的就是他会将你引入Jar包自己的依赖都搞进来,经常会出现一些类和方法冲突找不到等状况。这次,也被这个搞转载 2016-04-07 16:21:49 · 3005 阅读 · 0 评论 -
如何执行hbase 的mapreduce job
http://blog.youkuaiyun.com/xiao_jun_0820/article/details/28636309执行hbase mapreduce的两种方法:1 使用hadoop命令执行mapreduce job. 采用此方式需要修改hadoop-env.sh,将hbase相关的jar包加入到HADOOP_CLASSPATH中去,写法如下: exp转载 2016-04-07 16:25:07 · 921 阅读 · 0 评论 -
hbase 表数据迁移
http://blog.youkuaiyun.com/xiao_jun_0820/article/details/286155571 CopyTable 工具用法:CopyTable is a utility that can copy part or of all of a table, either to the same cluster or anothe转载 2016-04-07 16:25:59 · 665 阅读 · 0 评论 -
LRU缓存介绍与实现 (Java)
文章来源:http://blog.youkuaiyun.com/beiyeqingteng/article/details/7010411引子:我们平时总会有一个电话本记录所有朋友的电话,但是,如果有朋友经常联系,那些朋友的电话号码不用翻电话本我们也能记住,但是,如果长时间没有联系了,要再次联系那位朋友的时候,我们又不得不求助电话本,但是,通过电话本查找还是很费时间的。但是,我们大脑能够记转载 2015-11-28 16:43:44 · 468 阅读 · 0 评论 -
缓存淘汰算法--LRU算法【最近最少使用算法LRU置换策略适用于热点数据比较多的场景】
文章来源:http://flychao88.iteye.com/blog/1977653缓存淘汰算法--LRU算法博客分类: java基础 1. LRU1.1. 原理LRU(Least recently used,最近最少使用)算法根据数据的历史访问记录来进行淘汰数据,其核心思想是“如果数据最近被访问过,那么将来被访问的几率也更高转载 2015-11-28 16:27:28 · 10633 阅读 · 0 评论 -
Top K 算法详解
百度面试题:搜索引擎会通过日志文件把用户每次检索使用的所有检索串都记录下来,每个查询串的长度为1-255字节。假设目前有一千万个记录(这些查询串的重复度比较高,虽然总数是1千万,但如果除去重复后,不超过3百万个。一个查询串的重复度越高,说明查询它的用户越多,也就是越热门。),请你统计最热门的10个查询串,要求使用的内存不能超过1G。问题解析:要统计最热门转载 2015-11-28 17:46:25 · 2915 阅读 · 0 评论 -
Hadoop应用------如何编写Hadoop调度器【可以先学习雅虎开源的容量调度器和facebook开源的公平调度器】
文章来源:http://blog.youkuaiyun.com/athenaer/article/details/7441709作者:Dong | 可以转载, 但必须以超链接形式标明文章原始出处和作者信息及版权声明网址:http://dongxicheng.org/mapreduce/how-to-write-hadoop-schedulers/1. 编写目的在转载 2015-10-25 07:53:01 · 575 阅读 · 0 评论 -
YARN ResourceManager调度器的分析以及文件压缩
文章来源:http://tech.uc.cn/?p=1438YARN ResourceManager调度器的分析Posted by qus jiawei on 2013 年 6 月 20 日YARN是Hadoop新版中的资源控制框架。本文旨在深入剖析ResourceManager的调度器,探讨三种调度器的设计侧重,最后给出一些配置转载 2015-10-25 08:10:57 · 803 阅读 · 0 评论 -
BigInsights -- 基于 Hadoop 的数据分析平台【基于db2数据库】
http://www.ibm.com/developerworks/cn/data/library/techarticle/dm-1108lisd/#links本文针对 IBM 最新开发的数据分析平台进行概要介绍并对其应用进行指导说明。随着信息技术应用范围的不断扩展,对数据进行挖掘分析的需求日益增加,但是信息量的不断增大及其应用构建的复杂性日益却成为了传统数据分析的一个转载 2015-11-11 21:08:07 · 1575 阅读 · 0 评论 -
Ambari系列(二):编译安装Ambari
Ambari系列(二):编译安装Ambari分类: Hadoop2014-12-27 09:16 874人阅读 评论(2) 收藏 举报AmbariHDPhadoop编译目录(?)[+]1.2 需要安装的工具1.2.1 安装JDK输入命令[root@bigData-02 ~]# java –version转载 2015-11-16 13:07:11 · 2583 阅读 · 1 评论 -
Hadoop集群(第7期)_Eclipse开发环境设置
文章来源:http://www.cnblogs.com/xia520pi/archive/2012/05/20/2510723.htmlHadoop集群(第7期)_Eclipse开发环境设置1、Hadoop开发环境简介1.1 Hadoop集群简介 Java版本:jdk-6u31-linux-i586.bin Linux系统:CentOS6转载 2015-11-16 18:17:48 · 396 阅读 · 0 评论 -
CDH使用秘籍(一):Cloudera Manager和Managed Service的数据库
文章来源:http://blog.youkuaiyun.com/shifenglov/article/details/41115001 CDH使用秘籍(一文章来源):Cloudera Manager和Managed Service的数据库分类: Hadoop2014-11-14 10:51 1130人阅读 评论(0) 收藏 举报CDHCloudera Manager转载 2015-11-16 08:41:27 · 642 阅读 · 0 评论 -
Ambari系列(一):在离线环境中自动化安装Hadoop集群
文章来源:http://blog.youkuaiyun.com/shifenglov/article/details/41831983 Ambari系列(一):在离线环境中自动化安装Hadoop集群分类: Hadoop2014-12-09 21:56 1562人阅读 评论(1) 收藏 举报ambari离线安装Hadoop自动化机器部署:c转载 2015-11-16 10:29:08 · 962 阅读 · 0 评论 -
CDH使用秘籍(二):cloudera Manager中监控数据的存储
文章来源:http://blog.youkuaiyun.com/shifenglov/article/details/41281399 CDH使用秘籍(二):cloudera Manager中监控数据的存储分类: Hadoop2014-11-19 14:18 1951人阅读 评论(0) 收藏 举报CDHCloudera ManagerManaged Servic转载 2015-11-16 08:43:24 · 685 阅读 · 0 评论 -
大数据平台监控(二):Ganglia与Nagios的整合
文章来源:http://blog.youkuaiyun.com/shifenglov/article/details/40658007 大数据平台监控(二):Ganglia与Nagios的整合分类: linux2014-10-31 17:29 850人阅读 评论(1) 收藏 举报监控大数据平台nagiosganglia基本介绍Ganglia:Ga转载 2015-11-16 13:12:17 · 1212 阅读 · 0 评论 -
Hadoop优化与调整
文章来源:http://www.iteblog.com/archives/1003Hadoop优化与调整Hadoop、Hive、Hbase、Flume等QQ交流群:138615359(已满),请加入新群:1498924832014 Spark亚太峰会会议资料下载、《Hadoop从入门到上手企业开发视频下载[70集]》、《炼数成金-Spark大数据平台视频百度网盘免费转载 2015-11-25 13:03:00 · 483 阅读 · 0 评论 -
Hadoop平台优化综述
文章来源:http://dongxicheng.org/mapreduce/hadoop-optimization-0/1. 概述随着企业要处理的数据量越来越大,MapReduce思想越来越受到重视。Hadoop是MapReduce的一个开源实现,由于其良好的扩展性和容错性,已得到越来越广泛的应用。Hadoop作为一个基础数据处理平台,虽然其应用价值已得到大家认可,但仍转载 2015-11-25 17:26:58 · 507 阅读 · 0 评论 -
Hadoop2.x版本的eclipse插件问题汇总
问题一:最近搭建hadoop-2.6.0之后,在Window8系统中,将自己ant编译的hadoop-eclipse-plugin-2.6.0放在eclipse\plugins\目录下,重启eclipse之后,发现该插件没法使用!解决办法是: 启动eclipse的时候清理一下缓存。 eclipse.exe -clean。 就可以解决我那个插件不存在的问题。原创 2015-11-26 07:15:38 · 402 阅读 · 0 评论 -
spark1.3.0__for_hadoop2.4.1编译、安装与初步测试
文章来源:http://blog.youkuaiyun.com/javastart/article/details/44558997spark1.3.0__for_hadoop2.4.1编译、安装与初步测试分类: 大数据2015-03-23 08:33 2834人阅读 评论(0) 收藏 举报--- 这个是一个朋友整理的。比较详细有保存价值。-- 参考: ht转载 2015-11-19 20:16:00 · 843 阅读 · 0 评论 -
Eclipse调用hadoop2运行MR程序
文章来原:http://blog.youkuaiyun.com/fansy1990/article/details/22896249 Eclipse调用hadoop2运行MR程序2014-04-03 22:03 10307人阅读 评论(10) 收藏 举报 分类:eclipse(2) hadoop(29) java调用hadoop版权声明:转载 2015-11-27 16:23:38 · 631 阅读 · 0 评论 -
通过maven-shade-plugin 解决Elasticsearch与hbase的jar包冲突问题
http://blog.youkuaiyun.com/sunshine920103/article/details/51659936今天在项目中集成hbase1.0.0-cdh5.5.2和ElasticSearch2.2.0时出现了问题,原先在集成Hbase时,引入了架包com.google.guava(16.0版本),后来在集成ES时发现es中也用到了guava的18.0版本转载 2017-01-06 14:22:05 · 1242 阅读 · 0 评论