kylin 安装配置实验

目录

1. 实验环境

2. 安装 hadoop 集群

3. 安装配置基于独立 Zookeeper 集群的 Hbase

4. 安装配置 hive

5. 添加 hive_dependency 环境变量

6. 把 hive 安装目录拷贝到 Hadoop 集群的其他节点

7. 配置环境变量

8. 安装配置 kylin

9. 测试

(1)启动 zookeeper

(2)在 master 启动其他 kylin 依赖的服务

(3)在 master 启动 kylin

(4)测试 kylin 自带的例子

参考:


1. 实验环境

        3 台 CentOS release 6.4 虚拟机,IP 地址为:

  • 192.168.56.101 master
  • 192.168.56.102 slave1
  • 192.168.56.103 slave2

        相关软件版本:

  • hadoop 2.7.2
  • hbase 1.1.4
  • hive 2.0.0
  • zookeeper 3.4.8
  • kylin 1.5.1(一定要 apache-kylin-1.5.1-HBase1.1.3-bin.tar.gz 包)

        master 作为 hadoop 的NameNode、SecondaryNameNode、ResourceManager,hbase的HMaster;slave1、slave2 作为 hadoop 的 DataNode、NodeManager,hbase 的 HRegionServer;同时 master、slave1、slave2 作为三台 zookeeper 服务器。

        需要事先重新编译 hadoop 源码,使得 native 库支持 snappy。编译 hadoop 源码,参考“重新编译 Hadoop 2.7.2 native 以支持 snappy”。

2. 安装 hadoop 集群

        参考“Hadoop 集群安装配置实验”。

3. 安装配置基于独立 Zookeeper 集群的 Hbase

        参考“基于独立 Zookeeper 集群的 Hbase 安装配置实验”。

4. 安装配置 hive

        参考“hive 安装配置实验”。

5. 添加 hive_dependency 环境变量

export  hive_dependency=/home/grid/hive/conf:/home/grid/hive/lib/*:/home/grid/hive/hcatalog/share/hcatalog/hive-hcatalog-core-2.0.0.jar

6. 把 hive 安装目录拷贝到 Hadoop 集群的其他节点

scp -r hive slave1:/home/grid/
scp -r hive slave2:/home/grid/

7. 配置环境变量

        在每个节点中配置环境变量:

JAVA_HOME
HADOOP_HOME
HBASE_HOME
HADOOP_HDFS_HOME
HIVE_HOME
HADOOP_COMMON_HOME
JAVA_HOME
HADOOP_YARN_HOME
ZOOKEEPER_HOME
KYLIN_HOME
HADOOP_MAPRED_HOME
hive_dependency

8. 安装配置 kylin

        在 master 上执行以下命令:

cd /home/grid/
tar -zxvf apache-kylin-1.5.1-HBase1.1.3-bin.tar.gz
ln -s apache-kylin-1.5.1-bin kylin

vi /home/grid/kylin/bin/kylin.sh

        需要对 kylin.sh 脚本文件做两点修改:

export KYLIN_HOME=/home/grid/kylin # 改成绝对路径
export HBASE_CLASSPATH_PREFIX=${tomcat_root}/bin/bootstrap.jar:${tomcat_root}/bin/tomcat-juli.jar:${tomcat_root}/lib/*:$hive_dependency:$HBASE_CLASSPATH_PREFIX # 在路径中添加 $hive_dependency

9. 测试

(1)启动 zookeeper

        分别在三台机器上启动 zookeeper。

/home/grid/zookeeper/bin/zkServer.sh start

(2)在 master 启动其他 kylin 依赖的服务

$HADOOP_HOME/sbin/start-dfs.sh
$HADOOP_HOME/sbin/start-yarn.sh
$HADOOP_HOME/sbin/mr-jobhistory-daemon.sh start historyserver
~/mysql/bin/mysqld &
nohup $HIVE_HOME/bin/hive --service metastore > /tmp/grid/hive_metastore.log 2>&1 &
/home/grid/hbase/bin/start-hbase.sh

(3)在 master 启动 kylin

cd /home/grid/kylin/bin
./kylin.sh start

(4)测试 kylin 自带的例子

1. 运行 ${KYLIN_HOME}/bin/sample.sh,并重启 kylin 服务器

${KYLIN_HOME}/bin/sample.sh
${KYLIN_HOME}/bin/kylin.sh stop
${KYLIN_HOME}/bin/kylin.sh start

2. 使用 ADMIN/KYLIN 作为用户名/密码登录以下 URL,在左上角的 project 下拉列表中选择'learn_kylin'项目

        http://192.168.56.101:7070/kylin

3. 选中'kylin_sales_cube'示例立方体,点击'Actions'->'Build',选择一个截止日期,本试验中选择的是'2012-04-01'

4. 在'Monitor'标签中通过刷新页面检查进度条,直到 100%

5. 在'Insight'标签中执行下面的 SQL 查询

select part_dt, sum(price) as total_selled, count(distinct seller_id) as sellers from kylin_sales group by part_dt order by part_dt

6. 在 hive 中执行同一个 SQL 查询,验证 kylin 的查询结果

        Build 成功的模型标签如图1 所示。

图1

        Build 成功的监控标签如图2 所示。

图2

        查询执行和结果分别如图3、图4 所示。

图3

图4

        Build 成功后,hive 中建立了 3 个表,如图5 所示。

图5

        Build成功后,hbase 中建立了 2 个表,如图6 所示。

图6

        注意:

  • kylin、hadoop、hbase、hive 的版本一定要匹配。
  • 需要把 hive 拷贝到集群中的每个节点中。
  • 需要修改 kylin.sh 脚本。
  • 需要在每个节点中配置如下环境变量:
    HADOOP_HOME
    HBASE_HOME
    HADOOP_HDFS_HOME
    HIVE_HOME
    HADOOP_COMMON_HOME
    JAVA_HOME
    HADOOP_YARN_HOME
    ZOOKEEPER_HOME
    KYLIN_HOME
    HADOOP_MAPRED_HOME

参考:

### 关于 Apache Kylin 4.0 on Spark 生产环境中配置的方法 #### 配置概述 Apache Kylin 是一个分布式分析型数据仓库,能够提供 Hadoop/Spark 上的 SQL 查询接口以及多维分析(OLAP)能力。对于 Kylin 4.0 版本,在生产环境下部署时可以选择基于 Spark 构建和执行查询的功能[^3]。 #### 支持版本说明 值得注意的是,Kylin 4.0 不仅兼容 Spark 2.4.7 这一即将到达生命终点的老版本,同时也引入了对 Spark 3.1.1 的实验性质的支持。这意味着用户可以在新项目中尝试使用更先进的 Spark 3.x 功能来优化性能表现,尤其是在处理复杂的数据倾斜等问题方面获得了改进[^1]。 #### 安装与初始化设置 为了确保顺利安装并运行 Kylin 4.0 with Spark: - **依赖环境准备** - 确认集群已经正确设置了 Java 和 Scala 环境变量。 - 如果计划采用 YARN 或 Kubernetes 来管理资源,则需提前完成相应平台的服务端口开放、网络连通性测试等工作。 - **获取最新稳定版软件包** - 可通过官方 GitHub 仓库下载最新的发布版本或克隆整个源代码库用于自定义编译构建[^2]: ```bash git clone https://github.com/apache/kylin.git cd kylin && mvn clean package - 编辑 `conf/kylin.properties` 文件调整必要的参数选项,比如指定使用的计算框架为 Spark (`kylin.engine.spark- 使用脚本来简化操作流程,如 `bin/startup.sh` 启动所有必需组件;也可以根据实际情况编写自己的 Shell 脚本实现自动化运维目标。 #### 性能调优建议 针对生产级应用的需求特点,应该特别关注以下几个方面的优化措施: - **内存分配策略** - 对于大规模数据分析任务来说,默认情况下可能无法满足实际需求,因此要合理规划 Driver 和 Executor 的堆外空间大小(`spark.executor.memory`, `spark.driver.memory`)。 - **并发度控制** - 根据硬件条件适当增加分区数量(`spark.sql.shuffle.partitions`)以提高并行度,减少单个 Task 执行时间过长带来的影响。 - **缓存机制启用** - 当存在频繁访问相同中间结果的情况时,开启广播变量(`broadcastJoinThreshold`)或者持久化 RDD/Dataset 结构有助于加速后续迭代过程中的读取速度。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值