
hbase
枫叶的落寞
hadoop、spark数据挖掘与机器学习算法工程师
展开
-
HBase 删除指定column的所有数据
HBase 删除指定column的所有数据背景最近由于项目改版更新,原来存储在Hbase表中的某一列的数据需要全部更新,但是更新时需要每天去定时计算,而且第二天的数据需要用到前面好几天的历史数据,故需要将原来的这一列全部清空 As we know, during table creation we would define only the column family not ...原创 2018-06-29 16:10:35 · 7844 阅读 · 2 评论 -
bulkload混合使用hbase、phoenix的问题总结
bulkload 批量入数据使用spark生成hfile,然后将hfile bulkload进hbase中hbase 表与phoenix 表映射问题1、直接在phoenix中创建表,需要在hbase-site.xml中配置参数2、在hbase中创建表,然后在phoenix中创建同名表(table or view),这样做的话,必须是hbase表数据已灌输完成create 'hzj','i...原创 2018-11-29 16:26:11 · 587 阅读 · 0 评论 -
Hbase常用错误记录
1、Call exception, tries=10, retries=35, started=48631 ms ago, cancelled=false, msg=解决方案:检查 metrics-core jar包是否在$SPARK_HOME/jars下面拥有正确的版本,如果不确定版本是否正确,建议直接覆盖...原创 2018-12-26 16:24:32 · 481 阅读 · 0 评论 -
Spark常用错误记录
1、org.apache.spark.shuffle.FetchFailedException: Failed to connect当出现这个错误的时候,绝大部分原因是spark连接executor超时了,解决方案:在spark-submit脚本中增加:--conf spark.core.connection.ack.wait.timeout=600s...原创 2018-12-24 17:59:25 · 460 阅读 · 0 评论 -
hbase HexStringSplit预分区,spark通过bulkload入数据
hbase建表语句create 'test',{NAME=>'CF_1',COMPRESSION=>'SNAPPY'},{NUMREGIONS => 30, SPLITALGO => 'HexStringSplit'}bulk load 数据到上面建的表1、自定义spark的partitioner函数,使得rdd的分区和hbase hfile要求的region分区...原创 2018-12-27 17:11:12 · 3562 阅读 · 0 评论 -
HBase大并发业务下的参数优化
暂时先记录一下,后续再整理:1、hbase.ipc.server.read.threadpool.size=1002、hbase.hstore.compactionThreshold=103、hbase.hstore.blockingStoreFiles=304、hbase.regionserver.handler.count=100...原创 2019-01-10 14:39:49 · 1166 阅读 · 0 评论 -
利用spark读取phoenix(phoenix-spark)
为何不是jdbc访问phoenix?具体原因参照phoenix官网地址:(https://phoenix.apache.org/phoenix_spark.html)为何不是官网提倡的访问方式?官网提倡:import org.apache.spark.SparkContextimport org.apache.spark.sql.SQLContextimport org.apache....原创 2019-04-19 13:08:56 · 6896 阅读 · 4 评论