数仓例子基本流程

最新推荐文章于 2024-04-18 16:25:01 发布

原创最新推荐文章于 2024-04-18 16:25:01 发布 · 295 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文详细介绍了从数据源如mysql, oracle通过sqoop和flume进行数据迁移至Hadoop生态系统的全过程，包括全量和增量迁移策略。进一步阐述了数据在HDFS中存储，以及通过Flume到Kafka，再经由Kafka Streaming处理，最终存储于HBase和Hive的数据仓库构建流程。

数据源 .csv .txt … mysql oracle

sqoop （数据迁移） mysql =》hdfs 全量，增量
flume（数据迁移）文件 =》 console（控制台），kafka， hdfs

数据仓库（hdfs）

user_friends_raw

user_friends=>flume > kafka(user_friends_raw) >kafkaSteaming>kafka(user_friends)> hbase > hive 外表> 特征集提取

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。