
云计算
文章平均质量分 53
cff603
这个作者很懒,什么都没留下…
展开
-
Hbase数据迁移之bulkload
一、概述HBase本身提供了很多种数据导入的方式,通常有两种常用方式:1、使用HBase提供的TableOutputFormat,原理是通过一个Mapreduce作业将数据导入HBase2、另一种方式就是使用HBase原生Client API这两种方式由于需要频繁的与数据所存储的RegionServer通信,一次性入库大量数据时,特别占用资源,所以都不是最有效的。了解过HBase底...原创 2018-09-16 17:19:06 · 3422 阅读 · 0 评论 -
在Windows环境下编译调试Hbase源码
一、 hbase架构简介HBase 是一个开源的、分布式的、数据多版本的,列式存储的nosql数据库。依托 Hadoop 的分布式文件系统 HDFS 作为底层存储, 能够为数十亿行数百万列的海量数据表提供随机、实时的读写访问。 HBase 集群服务包含:HBase 数据库服务、HDFS 分布式文件系统、Phoenix 查询引擎。压缩格式方面支持 GZIP、BZIP2、LZO、SNAPPY,可自...原创 2018-09-17 20:31:49 · 1903 阅读 · 0 评论 -
hbase查看HFile命令
hbase hfile -v -p -m -f hdfs://ns1/hbase/data/hush/sdom/e876d29be0b27d45e4a116e71d877362/domains/581955a3a1c347bda51b348fbf112970原创 2018-09-23 20:49:50 · 2876 阅读 · 0 评论 -
hadoop + hbase架构和源码分析
hadoop + hbase架构和源码分析转载 2018-10-08 20:56:21 · 160 阅读 · 0 评论 -
Hbase性能优化总结
本文主要是从HBase应用程序设计与开发的角度,总结几种常用的性能优化方法。Auto Flash通过调用HTable.setAutoFlushTo(false)方法可以将HTable写客户端自动flush关闭,这样可以批量写入数据到HBase,而不是有一条put就执行一次更新,只有当put填满客户端写缓存的时候,才会向HBase服务端发起写请求。默认情况下auto flush是开启的。...转载 2018-09-30 19:03:07 · 199 阅读 · 0 评论 -
Hadoop常见错误以及解决办法
http://www.raincent.com/content-85-7554-7.htmlhttp://www.cnblogs.com/peizhe123/p/5540845.html hadoop常用参数配置转载 2019-05-08 09:56:25 · 326 阅读 · 0 评论 -
Spark Sql 分区损坏的问题解决
Spark查询分区表spark-sql -e"SELECT*FROM td_fixed_http_flowWHERE dt = '2018-12-02'AND HOUR = '16' ;"出现异常:Caused by: java.io.FileNotFoundException: File hdfs://rzx121:8020/apps/hive/wareh...原创 2019-06-04 08:54:47 · 1597 阅读 · 0 评论 -
Spark参数调优
Spark学习之路 (十二)SparkCore的调优之资源调优讨论QQ:1586558083目录一、概述 二、Spark作业基本运行原理 三、资源参数调优 3.1 num-executors 3.2 executor-memory 3.3 executor-cores 3.4 driver-memory 3.5 spark.default.parallelis...转载 2019-06-10 14:41:29 · 206 阅读 · 0 评论