
大数据
iteye_18979
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
MAC下如何安装protobuf
brew tap homebrew/versionsbrew install protobuf250 brew link --force --overwrite protobuf250protoc --version原创 2015-08-19 10:12:21 · 284 阅读 · 0 评论 -
【大数据笔记】Hadoop通过动态代理实现RPC
Hadoop所有的跨节点的通信都是通过RPC来通信的, RPC通信是需要创建Stub,一个好的RPC需要通过良好的设计确保了对上层调用的透明性. 我们下面就通过Hadoop里面最常用的心跳(JobTrack和TaskTracker)来研究一下Hadoop的RPC机制.心跳函数的调用在方法:TaskTracker.transmitHeartBeat();在此方法中会调用下面的代码段.这个方法...2014-09-12 20:09:49 · 205 阅读 · 0 评论 -
【大数据笔记】--续谈WordCount的Bug
在之前的Blog [http://flyfoxs.iteye.com/blog/2110463] 中讨论了, hadoop在文件切割时,可能会把一个行数据切割成无意义的2块. 如果不做特别处理,这会造成数据的失真及处理错误. 经人指点,发现这个BUG不存在. Hadoop在分割文件后,后期读取中会通过一些规则来保证不会出现把一行数据分割成2行. 下面对这个后期处理机制(LineRec...2014-09-09 22:55:32 · 156 阅读 · 0 评论 -
【大数据笔记】-解读hadoop命令
下面是hadoop发布版本, bin目录下面的hadoop命令的源码,hadoop命令支持好多种参数,一直记不住,想通过精度这部分代码,能记住部分参数. #!/usr/bin/env bash# Licensed to the Apache Software Foundation (ASF) under one or more# contributor license ag...2014-09-03 22:41:32 · 214 阅读 · 0 评论 -
【大数据笔记】--浅谈WordCount的Bug
最近精读Hadoop WordCount的示例,发现里面应该存在一个"可能的"Bug,现斗胆发出,希望有高人指点. Bug描述:WordCount数单词的时候,如果遇到大文件会对文件进行切分.但是切分是按照字节来进行的,完全有可能会将一个单词切分成2个单词,这样也就可能会创造2个不存在的单词. 相关代码:WordCount main 函数 ( FileInp...2014-08-28 16:05:09 · 186 阅读 · 0 评论 -
【大数据笔记】--Hui无法连接Hbase (Cloudera默认安装)
错误提示:在通过Hui使用Hbase时,提示如下错误hbase Api Error: Could not connect to localhost:9090 具体原因:The HBase Browser application依赖HBase Thrift server,但是CDH并没有默认的启用Thrift Server role 解决办法:一句话描述:在Hui...2014-08-15 16:56:24 · 417 阅读 · 0 评论 -
Solution to Fix OOM in Drill
Drill用来查询Hbase,不需要预先定义Schema,十分方便.当时如果Hbase表过大会出现OOM(OUT OF MEMORY). 查询文档后,发现通过如下2个配置可以解决. 高亮的是系统的默认值. SELECT * FROM sys.options WHERE type in ('SYSTEM','SESSION') and name in( 'planner.memory....2016-11-27 22:30:55 · 221 阅读 · 0 评论 -
Scala浮点运算精度问题
在Spark开发的时候,直接使用java.math.BigDecimal进行浮点相乘的时候,依然有精度缺失.但是如果是纯JAVA就没有,在Scala中调用JAVA的BigDecimal就有这样的问题. 偶然之间发现Scala也实现了scala.math.BigDecimal. 换用SCALA自身的BigDecimal就没这样的问题了. 不知道深层次的原因,在这抛砖引玉,如果有人...2016-10-15 21:15:35 · 2764 阅读 · 0 评论 -
如何使用Spark/Scala读取Hbase的数据
必须使用高亮参数启动Spark-shell,否则当你遍历RDD时会出现如下的Exceptionjava.io.NotSerializableException: org.apache.hadoop.hbase.io.ImmutableBytesWritable spark-shell --conf spark.serializer=org.apache.spark.serializ...原创 2016-09-05 17:10:24 · 1399 阅读 · 0 评论 -
Parquet列式存储格式笔记
最近偶然的因素,突然觉得这个格式很神奇,找了很多文章细读了一遍,特整理如下. 第一篇文章里面讲的很通俗,易懂.但是对于之前没有背景的,细节地方不好理解,因为里面的实例比较简单和真实案例差别比较大.深入分析Parquet列式存储格式http://www.infoq.com/cn/articles/in-depth-analysis-of-parquet-column-storag...2016-04-13 10:15:22 · 392 阅读 · 0 评论 -
Hbase 笔记
但一个CF被Flush时,其他相关的CF也会被同时Flush. 如果CF分配不均衡会导致很多小的HFile.Hbase的一条记录,只会由一个Region维护,即使有多个Column Family也不会跨越多个Region.Hbase的Memstore flush到 Hfile的触发条件有如下几种WAL大小达到阀值 内存使用达到阀值,但是阀值有2种: ...2015-09-17 16:17:47 · 121 阅读 · 0 评论 -
【大数据笔记】白话详解Zookeeper的一致性
下面内容主要摘抄于<<Hadoop实战>>,红色高亮部分是本人添加的白话注释. Zookeeper 是一种高性能、可扩展的服务。 Zookeeper 的读写速度非常快,并且读的速度要比写的速度更快。另外,在进行读操作的时候, ZooKeeper 依然能够为旧的数据提供服务。这些都是由于 ZooKeepe 所提供的一致性保证,它具有如下特点:【Zook...2014-09-25 14:08:32 · 567 阅读 · 0 评论