大数据架构方案,主要包括整个大数据的软件栈,主要功能包括:数据抽取,数据存储,数据分析,数据挖掘
下面是整个架构设计图:
数据抽取
关系型数据库,通过sqoop导入
日志文件通过flume导入数据存储
采用hdfs,hbase等为数据存储的主体
对于文本检索则采用es/solr等搜索技术
分析后的结果数据可以采用关系型数据库存储数据分析
采用spark,mapreduce,storm等计算框架分析
批处理:spark,mapreduce
流式处理:spark,storm数据挖掘
采用 spark MLIB,mathout等进行数据建模分析数据查询
利用hive元数据来建立数据仓库视图,通过hive thirft,impala, spark SQL等提供JDBC/ODBC接口供报表展示工具查询
通过以上架构,实现大数据应用的落地,大数据的目标还是为了提高业务能力,通过大数据架构带来的技术变革,提升数据价值,改革业务模式,才是大数据的红利