- 博客(4)
- 收藏
- 关注
原创 sparksql 如何指定输出的文件名
这是sparksql写入hive表指定输出文件名的自定义方式。贼简单!!!版本:spark-2.3.2实现目的在目前的业务需求中,需要实现场景为:当往一个hive表中不断以Append的方式写入数据,需要知道哪些文件是哪一次运行后追加的文件,所以最好的方法是往输出的文件名前添加前缀,如日期,或者调度编号等。但是spark未提供相应参数接口,需要更改一丢丢源码来实现。实现方式...
2020-04-20 18:22:24
2399
原创 使用cdh的hbase-indexer工具的两个问题
在使用hbase实现点查询业务中,经常要用到二级索引的方式,而 hbase over solr 是一种比较灵活,性能较高的方案。cdh平台提供了hbase-indexer工具可以实现将hbase的数据同步到solr中的方式,下面说一下实际使用的过程中遇到的两个问题。问题一之前在设置类型之后需要使用hbase-indexer的官方类型int将hbase中的byte转换成solr中的整数型...
2019-09-29 21:49:19
969
原创 spark-sql读取映射hbase数据的hive外部表
之前在业务处理中建立的一个hive映射hbase数据的外部表,通过hive查询成功,但是通过spark-sql去查询报了如下错误:Error: java.lang.RuntimeException: org.apache.hadoop.hive.ql.metadata.HiveException: Error in loading storage handler.org.apache.hadoop.
2017-12-27 17:06:35
5518
4
原创 cdh上使用spark-thriftserver操作carbondata
carbondata 是一种新型的适用于分布式计算的列式文件格式,本次使用spark-thrift方式来操作carbondata,简略介绍如何启动spark-carbondata-thriftserver。版本cdh 5.10.3spark 2.1.0carbondata 1.2.0 下载spark https://archive.apache.org/dist/spark/spark-2
2017-11-27 18:48:00
2045
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人