
数据湖 |湖仓一体
文章平均质量分 87
Hudi是一个支持插入、更新、删除、以及增量处理的数据湖框架,同时也支持事务性ACID增量处理、存储管理和时间管理。 Hudi是Apache Software Foundation的一个开源项目,它可以在Hadoop上构建实时数据仓库(Real-time Data Warehouse),以便在几分钟
AIMaynor
个人博客:maynor1024.live,ai网站: vlink.cc/maynorai
展开
-
Hudi数据湖技术引领大数据新风口(三)解决spark模块依赖冲突
📢数据湖专栏持续更新,欢迎订阅:https://blog.youkuaiyun.com/xianyu120/category_12388063.html。修改了Hive版本为3.1.2,其携带的jetty是0.9.3,hudi本身用的0.9.4,存在依赖冲突。否则在使用DeltaStreamer工具向hudi表插入数据时,也会报Jetty的错误。📢博客主页:https://manor.blog.youkuaiyun.com。📢不能老盯着手机屏幕,要不时地抬起头,看看老板的位置⭐。原创 2023-07-25 09:30:41 · 716 阅读 · 0 评论 -
Hudi数据湖技术引领大数据新风口(二)编译安装
通过网址下载:http://packages.confluent.io/archive/5.3/confluent-5.3.4-2.12.zip。(1)上传apache-maven-3.6.1-bin.tar.gz到/opt/software目录,并解压更名。也可以从github下载:https://github.com/apache/hudi/将hudi-0.12.0.src.tgz上传到/opt/software,并解压。(1)修改setting.xml,指定为阿里仓库地址。(2)修改依赖的组件版本。原创 2023-07-25 09:29:31 · 313 阅读 · 0 评论 -
Hudi:数据湖技术引领大数据新风口
Apache Hudi(Hadoop Upserts Delete and Incremental)是下一代流数据湖平台。Apache Hudi将核心仓库和数据库功能直接引入数据湖。Hudi提供了表、事务、高效的upserts/delete、高级索引、流摄取服务、数据集群/压缩优化和并发,同时保持数据的开源文件格式。Apache Hudi不仅非常适合于流工作负载,而且还允许创建高效的增量批处理管道。Apache Hudi可以轻松地在任何云存储平台上使用。原创 2023-07-24 10:10:52 · 1498 阅读 · 0 评论