
hadoop
梦想成真那天
这个作者很懒,什么都没留下…
展开
-
Hadoop 2.6.0环境搭建详细
Hadoop 2.6.0环境搭建详细原创 2017-03-31 22:01:36 · 350 阅读 · 0 评论 -
MR任务之后提交Hadoop批量索引任务
MR程序运行成功之后,生成的JSON数据放入指定的目录,然后利用HTTP的POST,向druid.io的overload上提交任务 private static void submitHadoopIndexTask(FileSystem fileSystem, String dataSource, String intervals, List<Path&...原创 2018-08-22 17:48:51 · 458 阅读 · 0 评论 -
Hadoop分布式文件缓存(DistributeCache)
如果在Hadoop程序中,我们需要将一大堆中间结果集,给其他的MR任务的使用,那么这个参数怎么传递呢? 如果是少量的参数问题,我们可以使用Configuration使用,但是如果是大量的结果集怎么处理呢? 这个时候,就需要引入MR任务的分布式缓存文件系统了. 如果要使用缓存文件,首先需要在Driver层,将中间结果的文件路径添加到MR的job中package net.icsoc.ct...原创 2018-08-22 13:55:46 · 1872 阅读 · 0 评论 -
Hadoop URL读取数据
/********************************************************************* * 版权信息:博睿宏远科技发展有限公司 * Copyright: Copyright (c) 2007博睿宏远科技发展有限公司,Inc.All Rights Reserved. * @date ${date} * @Author: 徐昌 ...原创 2018-03-08 11:10:34 · 374 阅读 · 0 评论 -
Caused by: java.io.IOException: Lease timeout of 0 seconds expired.
2017-07-09 10:33:07.040 [pool-2-thread-9] ERROR com.bonree.browser.util.GenerateParquet - can not write PageHeader(type:DICTIONARY_PAGE, uncompressed_page_size:34, compressed_page_size:34, dictionary_p原创 2017-07-10 09:56:51 · 3666 阅读 · 0 评论 -
Operation category READ is not supported in state standby
Operation category READ is not supported in state standby原创 2017-07-04 09:52:46 · 893 阅读 · 0 评论 -
hadoop强制进行Active/Standby切换的命令
hdfs haadmin -transitionToActive/transitionToStandby -forcemanual nn1原创 2017-06-20 18:00:44 · 3962 阅读 · 0 评论 -
yarn local dirs的管理实现
在yarn中对 yarn.nodemanager.local-dirs的状态更新操作,定义在 LocalDirsHandlerService(org.apache.hadoop.yarn.server.nodemanager.LocalDirsHandlerService)相关类中,在nm启动时,会启动一个LocalDirsHandlerService服务,循环检测yarn.nodemanager.原创 2017-05-12 09:48:40 · 1824 阅读 · 0 评论 -
实时Hadoop实战篇:基于Storm实时路况分析和实时路径推荐系统
实时Hadoop实战篇:基于Storm实时路况分析和实时路径推荐系统 此博文包含图片 (2015-02-16 13:54:06)转载▼ 标签: gps storm 云计算 it 分类: storm/haddop/云计算 Hadoop分布式计算系统以其强大的计算性能和扩展能力称霸于海量历史数据处理领域,但是它目前还没能对传统的关系型数据系统(RDBMS:如oracle、SQL Serve转载 2017-04-06 14:56:40 · 2990 阅读 · 1 评论 -
使用Storm实现实时大数据分析
使用Storm实现实时大数据分析 标签: hadoopstorm 2012-12-31 10:12 56162人阅读 评论(11) 收藏 举报 分类: 大数据处理(11) 数据结构与算法(28) 版权声明:本文为博主原创文章,未经博主允许不得转载。目录(?)[+] 摘要:随着数据体积的越来越大,实时处理成为了许多机构需要面对的首要挑战。Shruthi Kumar和Siddharth转载 2017-04-05 16:51:23 · 1836 阅读 · 0 评论 -
Flume环境部署和配置详解及案例大全
Flume环境部署和配置详解及案例大全投稿:hebedich 字体:[增加 减小] 类型:转载 时间:2014-08-11 我要评论flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(比如文本、HDFS、Hbase等)的能力 。 . . 一、什么是Flume?转载 2017-04-05 16:16:18 · 560 阅读 · 0 评论 -
Flume-NG + HDFS + HIVE 日志收集分析
Flume-NG + HDFS + HIVE 日志收集分析 2014-02-07 17:43 11373人阅读 评论(3) 收藏 举报 最近做了一个POC,目的是系统日志的收集和分析,此前有使用过splunk,虽然用户体验很好,但一是价格昂贵,二是不适合后期开发(splunk已经推出了SDK,后期开发已经变得非常容易)。在收集TB级别的日志量上flume-ng是更好的选择,因为后面的存储是扩展性转载 2017-04-05 15:48:18 · 494 阅读 · 0 评论 -
Hadoop/Spark集群中新增加节点
Hadoop/Spark集群中新增加节点原创 2017-03-31 22:58:20 · 754 阅读 · 0 评论 -
Hadoop2.6.0基础上搭建Spark1.5详细步骤
Hadoop2.6.0基础上搭建Spark1.5详细步骤原创 2017-03-31 22:03:03 · 479 阅读 · 0 评论