Alluxio 是大数据领域数据内存加速利器,是世界上第一个面向基于云的数据分析和人工智能的开源的数据编排技术。 它为数据驱动型应用和存储系统构建提供了桥梁, 将数据从存储层移动到距离数据驱动型应用更近的位置,从而使得数据能够更容易被访问。 这还使得应用程序能够通过一个公共接口连接到许多存储系统。 Alluxio内存至上的层次化架构使得数据的访问速度能比现有方案快几个数量级。
在现有大数据生态系统中,Alluxio 位于数据驱动框架或应用(如 Apache Spark、Presto、Tensorflow、Apache HBase、Apache Hive 或 Apache Flink)和各种持久化存储系统(如 Amazon S3、Google Cloud Storage、OpenStack Swift、HDFS、GlusterFS、IBM Cleversafe、EMC ECS、Ceph、NFS 、Minio和 Alibaba OSS)之间。 Alluxio 统一了存储在这类不同存储系统中的数据,为其上层数据驱动型应用提供统一的客户端 API 和全局命名空间。
流程图
- 阐述了alluxio在整个商城体系中的角色
1、商城客户行为数据通过kafka存储到minio文件集群;
2、alluxio通过内存加速,将数据缓存到本机内存存储,提供快速数据访问桥梁;
3、计算引擎(Spark或Flink)直接操作Alluxio集群内存,实现数据快速计算;
Alluxio部署
其中alluxio 的版本为2.4,以下是5个服务器节点,每个节点内存32GB,挂载数据盘大小200GB,采用虚拟机部署,也可以采用K8s部署,安装用户为appuser,对其部署进行说明:
192.168.1.11 #master节点
192.168.1.12 #master节点
192.168.1.13 #master节点
192.168.1.14
192.168.1.15
1、系统配置
1.1、服务器间免密配置
- 生成公钥(秘钥对)
ssh-keygen -t rsa #默认一直执行下去,每个节点如此 - 查看秘钥
cat /appuser/.ssh/id_rsa.pub - 生成auth文件
cd .ssh/
touch authorized_keys - 文件拷贝
将第二步生成的key拷贝authorized_keys文件中保存,#每个节点的key都分别拷贝到其他节点authorized_keys文件保存。 - 授权
chmod 644 authorized_keys
1.2、服务器名映射配置
vim /etc/hosts
在每个服务器节点,如果存在服务器名称,需要做名称与IP的映射,例如:
192.168.1