Timeline Service(时间线服务)是hudi的一个组件,用于暴露文件系统视图接口给客户端,是一个基于Javalin+Jetty实现的web服务。当客户端使用远程文件系统视图(RemoteHoodieTableFileSystemView)时,就是访问时间线服务http接口

默认情况下,如果开启了时间线服务,则它运行在JobManager(如果是spark,则在driver中),所有写任务都会向它发出请求。
功能
时间线服务接收到的请示会分派给对应的Handler进行处理
- BaseFileHandler:获取base文件信息
- FileSliceHandler:获取文件分片信息
- TimelineHandler:获取timeline信息
- MarkerHandler:管理marker文件,创建、删除、查询
前三者直接代理了文件系统视图提供的接口,第四个是实现了marker机制,支持批量创建marker文件,解决了AWS S3下性能瓶颈问题。
部署方式
时间线服务支持两种部
Timeline Service是Hudi的一个组件,提供文件系统视图接口,基于Javalin+Jetty的web服务。服务处理BaseFileHandler、FileSliceHandler、TimelineHandler和MarkerHandler的请求,解决如AWS S3的性能问题。支持内置(默认,每个作业独享)和独立部署两种方式,减少写操作的文件系统开销。
订阅专栏 解锁全文
1644

被折叠的 条评论
为什么被折叠?



