11、hadoop--数据收集原理

本文探讨了数据来源的多样性和如何通过Flume、Kafka、Scribe等系统进行数据收集,以及如何使用Sqoop实现传统数据库与Hadoop之间的同步。重点介绍了Hadoop收集与入库系统的应用,包括数据从多种来源到Hadoop集群的流程。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

常见的两种数据来源

分散的数据源:
 机器产生的数据;
 用户访问日志;
 用户购买日志;
传统系统中的数据:
 传统关系型数据库:MySQL、 Oracle等;
 磁盘阵列;
 磁带.

常见的Hadoop收集与入库系统:
数据收集
[color=green] Flume
 Kafka[/color]
 Scribe
传统数据库与Hadoop同步
[color=green] Sqoop[/color]

file-->hadoop
[img]http://dl2.iteye.com/upload/attachment/0107/0530/eee1c4e0-bf6f-383e-8f5b-7b792931c054.png[/img]
[img]http://dl2.iteye.com/upload/attachment/0107/0533/91b79173-12b5-3f0c-a7d8-1e596a0d2612.png[/img]
[img]http://dl2.iteye.com/upload/attachment/0107/0551/69a8d503-a7aa-3ce7-bda3-52c3b1264e2f.png[/img]


rdbs<-->hadoop(hbase/hive)利用MapReduce
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值