数据源 .csv .txt … mysql oracle
sqoop (数据迁移) mysql =》hdfs 全量,增量
flume(数据迁移)文件 =》 console(控制台),kafka, hdfs
数据仓库(hdfs)
user_friends_raw
user_friends=>flume > kafka(user_friends_raw) >kafkaSteaming>kafka(user_friends)> hbase > hive 外表> 特征集提取
本文详细介绍了从数据源如mysql, oracle通过sqoop和flume进行数据迁移至Hadoop生态系统的全过程,包括全量和增量迁移策略。进一步阐述了数据在HDFS中存储,以及通过Flume到Kafka,再经由Kafka Streaming处理,最终存储于HBase和Hive的数据仓库构建流程。
数据源 .csv .txt … mysql oracle
sqoop (数据迁移) mysql =》hdfs 全量,增量
flume(数据迁移)文件 =》 console(控制台),kafka, hdfs
数据仓库(hdfs)
user_friends_raw
user_friends=>flume > kafka(user_friends_raw) >kafkaSteaming>kafka(user_friends)> hbase > hive 外表> 特征集提取
633
2021
847

被折叠的 条评论
为什么被折叠?