搭建即席查询平台

1.环境介绍
  三台机器分布式查询
  hadoop2.6.4+hive1.2.2+presto0.173+yanagishima5.0+jdk1.8.0_121
2.安装
  hadoop和hive的安装部署略过。
  2.1presto安装
  下载prestoy和discovery安装文件并解压到相应路径
  mkdir -p /data/hadoop/presto
  cd /data/hadoop/presto
  tar -zxvf ~/install_package/presto-server-0.173.tar.gz
  tar -zxvf ~/install_package/discovrey_server-1.16.tar.gz
  配置discovery
  cd discovery-server-1.16
  创建etc目录和data目录
  mkdir etc data
  cd etc
  创建相应的配置文件
  echo "http-server.http.port=8412" >config.properties
  echo "-server
      -Xmx8G
      -XX:+UseConcMarkSweepGC
      -XX:+ExplicitGCInvokesConcurrent
      -XX:+AggressiveOpts
      -XX:+HeapDumpOnOutOfMemoryError
      -XX:OnOutOfMemoryError=kill -9 %p">jvm.config
大数据分析处理平台是整合当前主流的各种具有不同侧重点的大数据处理分析框架和工具,实现对数据的挖掘和分析。在搭建Spark分析平台之前,需要明确业务需求场景以及用户的需求,通过大数据分析平台,想要得到哪些有价值的信息,需要接入的数据有哪些,明确基于场景业务需求的大数据平台要具备的基本的功能,来决定平台搭建过程中使用的大数据处理工具和框架。具体步骤如下: 1. 选择操作系统,可以在个人电脑上安装两台及以上数量的虚拟机作为底层构建平台。 2. 搭建Hadoop集群,Hadoop作为一个开发和运行处理大规模数据的软件平台,实现了在大量的廉价计算机组成的集群红对海量数据进行分布式计算。 3. 安装和配置SparkSpark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用分布式并行计算框架,提供了多种高级工具:Shark SQL应用于即席查询(Ad-hoc query)、Spark Streaming应用于流式计算、MLlib应用于机器学习、GraphX应用于图处理。 4. 部署SparkSpark可以基于自带的standalone集群管理器独立运行,也可以部署在Apache Mesos和Hadoop YARN等集群管理器上运行。 5. 访问数据,Spark可以访问存储在HDFS、Hbase、Cassandra、Amazon S3、本地文件系统等等上的数据,支持文本文件,序列文件,以及任何Hadoop的InputFormat。 6. 进行实验分析,使用Spark提供的多种高级工具进行数据分析和挖掘。
评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值