
spark
文章平均质量分 61
wang972779876
这个作者很懒,什么都没留下…
展开
-
hive 读取sparksql的orc文件报ArrayIndexOutOfBoundsException:6
报错日志如下可以看出报错的地方再OrcFile的WriterVersion的from方法,定位代码发生在下面代码的values[val]代码段。values的值从代码可以看出values的数据应该为5,见下图代码而传过来的val是6,向上看代码,version来源是文件的meta,应该是spark版本的原因导致hive不支持的version。解决修改OrcFile文件的WriterVersion的内部类的from方法:public static WriterVersio原创 2021-10-28 17:13:07 · 1901 阅读 · 0 评论 -
hudi 测试程序
向hudi中写入数据1.添加maven依赖 <!-- https://mvnrepository.com/artifact/org.apache.httpcomponents/httpclient --> <dependency> <groupId>org.apache.httpcomponents</groupId> <artifactId>httpclie原创 2021-07-27 10:11:51 · 563 阅读 · 0 评论 -
hudi学习一(初识hudi)
什么是hudiHudi(发音为“hoodie”)摄取与管理处于DFS(HDFS或云存储)之上的大型分析数据集并为查询访问提供三个逻辑视图。读优化视图 - 在纯列式存储上提供出色的查询性能,非常像parquet表。 增量视图 - 在数据集之上提供一个变更流并提供给下游的作业或ETL任务。 准实时的表 - 使用基于列存储和行存储(例如 Parquet +Avro)以提供对实时数据的查询通过仔细地管理数据在存储中的布局和如何将数据暴露给查询,Hudi支持丰富的数据生态系统,在该系统中,外部数据源..原创 2021-06-21 20:02:53 · 8241 阅读 · 0 评论