
hadoop
稻草一根
这个作者很懒,什么都没留下…
展开
-
模拟实现mapreduce中环形缓冲区的读写过程
原型:在mapreduce中,map task调用map处理逻辑将处理后的key和value利用outputcollector.collect()放入一个环形缓冲区中,那么这个缓冲区是有一定大小的,那么如果放入的内容很多很多的时候怎么办呢?其实hadoop里面有这么个机制,在缓冲区达到某一个值或者比率的时候,比如80%,那么hadoop会利用Spiller.spill()将这个80%的数据读出原创 2017-04-07 14:34:37 · 2756 阅读 · 2 评论 -
学习--Hbase 行键设计(rowkey) 实现多条件查询
HBASE的使用跟业务逻辑有很强的关联性,就像本文里提到的例子使用ElasticSearch更合适。HBASE适合那种使用key-value模式的快速查询,多字段查询还是不适合它。所以大家如果看本文的话,就全当是加深对hbase过滤器的理解吧,内容概括起来就是实现一个使用位运算的比较器。摘要本文主要内容是通过合理hbase 行键(rowkey)设计实现快速的多条件查询,所采用的方法将所有...转载 2019-05-16 17:53:46 · 1375 阅读 · 0 评论 -
Spark Streaming详解----概述、基本概念、性能调优
本文章主要讲述SparkStreaming概念原理、基本概念、以及调优等一些知识点。1 概述1.1 SparkStreaming是什么Spark Streaming 是个批处理的流式(实时)计算框架。其基本原理是把输入数据以某一时间间隔批量的处理,当批处理间隔缩短到秒级时,便可以用于处理实时数据流。 支持从多种数据源获取数据,包括Kafk、Flume、Twitter、ZeroMQ、...转载 2018-04-26 09:33:57 · 9891 阅读 · 0 评论 -
编写hbase协处理器observer遇到的问题
一、第一个异常信息,配置文件错误java.io.IOException: Aborting flush because server is aborted... at org.apache.hadoop.hbase.regionserver.HRegion.internalPrepareFlushCache(HRegion.java:2269) at org.apach...原创 2018-04-13 18:47:15 · 1184 阅读 · 0 评论 -
七牛是如何搞定每天500亿条日志的
概述 数据平台在大部分公司都属于支撑性平台,做的不好立刻会被吐槽,这点和运维部门很像。所以在技术选型上优先考虑现成的工具,快速出成果,没必要去担心有技术负担。早期,我们走过弯路,认为没多少工作量,收集存储和计算都自己研发,发现是吃力不讨好。去年上半年开始,我们全面拥抱开源工具,搭建自己的数据平台。 公司的主要数据来源是散落在各个业务服务器上的半结构化日志,比如系统日志、程序日志、访问日志、审计日志...转载 2018-03-25 10:42:33 · 376 阅读 · 0 评论 -
Ambari Hadoop集群HA整合Hue安装介绍
HUE整合Ambari安装部署 1.复用bigdata3的mysql设置hue用户create database hue_to_mysql character set utf8 ; CREATE USER hue@'%'IDENTIFIED BY '7dYDrMECSQ';GRANT ALL PRIVILEGES ON *.* TO hue@'%';FLUSH PRI原创 2017-07-19 17:06:47 · 2707 阅读 · 0 评论 -
在root用户执行hive命令报错
Exception in thread "main" java.lang.RuntimeException: org.apache.hadoop.security.AccessControlException: Permission denied: user=root, access=WRITE, inode="/user/root":hdfs:hdfs:drwxr-xr-x a原创 2017-07-13 15:23:43 · 2025 阅读 · 0 评论 -
使用sqoop将数据从hdfs中导入mysql时,卡在INFO mapreduce.Job: map 100% reduce 0%的解决办法
最近在将hdfs中已经处理好的数据导入到mysql的时候遇到这么一个现象,当任务执行到INFO mapreduce.Job: map 100% reduce 0%mapreduce任务卡在map100% ,任何reduce不继续执行。总结了以下解决办法:一,如果没有报错的话,可能是你mysql的数据库建表指定的主键不全,导致导入一部分数据后,主键出现相同字段,那么就造成阻塞了原创 2017-04-20 20:32:26 · 8350 阅读 · 0 评论 -
Hadoop使用MapReduce处理百万行Json格式数据
需求:每行数据格式"{\"movie\":\"2599\",\"rate\":\"5\",\"timeStamp\":\"957716949\",\"uid\":\"6040\"}"从其中计算出每个用户评分最高的十步电影movie值和rate值输出为uid:...movie...rate...思路:map端先将读取的json数据转成pojo对象,所以要创建一个bean用原创 2017-04-05 23:20:58 · 8160 阅读 · 3 评论 -
kafka原理深入剖析和研究,kafka原理详细解读
一、为什么需要消息系统1.解耦: 允许你独立的扩展或修改两边的处理过程,只要确保它们遵守同样的接口约束。2.冗余: 消息队列把数据进行持久化直到它们已经被完全处理,通过这一方式规避了数据丢失风险。许多消息队列所采用的"插入-获取-删除"范式中,在把一个消息从队列中删除之前,需要你的处理系统明确的指出该消息已经被处理完毕,从而确保你的数据被安全的保存直到你使用完毕。3.扩展性: ...原创 2019-07-08 12:05:51 · 838 阅读 · 0 评论