常见的两种数据来源
分散的数据源:
机器产生的数据;
用户访问日志;
用户购买日志;
传统系统中的数据:
传统关系型数据库:MySQL、 Oracle等;
磁盘阵列;
磁带.
常见的Hadoop收集与入库系统:
数据收集
[color=green] Flume
Kafka[/color]
Scribe
传统数据库与Hadoop同步
[color=green] Sqoop[/color]
file-->hadoop
[img]http://dl2.iteye.com/upload/attachment/0107/0530/eee1c4e0-bf6f-383e-8f5b-7b792931c054.png[/img]
[img]http://dl2.iteye.com/upload/attachment/0107/0533/91b79173-12b5-3f0c-a7d8-1e596a0d2612.png[/img]
[img]http://dl2.iteye.com/upload/attachment/0107/0551/69a8d503-a7aa-3ce7-bda3-52c3b1264e2f.png[/img]
rdbs<-->hadoop(hbase/hive)利用MapReduce
分散的数据源:
机器产生的数据;
用户访问日志;
用户购买日志;
传统系统中的数据:
传统关系型数据库:MySQL、 Oracle等;
磁盘阵列;
磁带.
常见的Hadoop收集与入库系统:
数据收集
[color=green] Flume
Kafka[/color]
Scribe
传统数据库与Hadoop同步
[color=green] Sqoop[/color]
file-->hadoop
[img]http://dl2.iteye.com/upload/attachment/0107/0530/eee1c4e0-bf6f-383e-8f5b-7b792931c054.png[/img]
[img]http://dl2.iteye.com/upload/attachment/0107/0533/91b79173-12b5-3f0c-a7d8-1e596a0d2612.png[/img]
[img]http://dl2.iteye.com/upload/attachment/0107/0551/69a8d503-a7aa-3ce7-bda3-52c3b1264e2f.png[/img]
rdbs<-->hadoop(hbase/hive)利用MapReduce