hadoop 架构与基础
大数据平台三大集群业务:
1.离线海量数据查询
2.算法数据挖掘与分析
3. 在线实时处理
hive支持的sql比spark层数多。
2000台hadoop服务公司, 58同城/携程等规模
迅速做测试,可以买阿里云虚拟机。
快速实时统计,实时聚类:
spark stream
storm
kafka->spark streaming
sqoop 从sql到hadoop数据导入导出;
ELK: 大数据平台log收集
DataX, 可以用于做数据导入导出, 阿里用的插件。
SATA : 报表分析实时要求不高可以用
SAS: 常规配置
SSD:实时分析查询
BI ---> dylin
报表 ---》 Hive spark sql ; impala , spark sql
流式计算----> spark stream storm
消息队列: kafka
数据采集: sqoop , flume
微信--> hbase , Cassandra , mongodb
搜索: solr, elastic search
机器学习: spark ML,