八、电商数仓项目——可视化报表Superset

Apache Superset是一个开源的BI工具,提供丰富的数据可视化和仪表盘功能。本文介绍了其安装步骤,包括使用gunicorn启动和停止服务,并展示了如何对接MySQL数据源,设置角色权限,以及创建数据表和仪表盘。通过简单的命令行操作,可以轻松管理和使用Superset进行数据分析。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

一、Superset入门

1.1 Superset概述

        Apache Superset是一个开源的、现代的、轻量级BI分析工具,能够对接多种数据源、拥有丰富的图表展示形式、支持自定义仪表盘,且拥有友好的用户界面,十分易用。

1.2 Superset应用场景

        由于Superset能够对接常用的大数据分析工具,如mysql、Hive、Kylin、Druid等,且支持自定义仪表盘,故可作为数仓的可视化工具。

二、Superset安装及使用

Superset官网地址:http://superset.apache.org/

2.1 安装Python环境

2.2 Superset部署

1、启动后superset:

(superset) [xiaobai@hadoop102 ~]$ 
gunicorn --workers 5 --timeout 120 --bind hadoop102:8787  "superset.app:create_app()" --daemon 

说明:
 workers:指定进程个数
 timeout:worker进程超时时间,超时会自动重启
 bind:绑定本机地址,即为Superset访问地址
 daemon:后台运行 

2、登录superset:
访问 http://hadoop102:8787 使用管理员账户进行登录。

3、停止superset:

ps -ef | awk '/superset/ && !/awk/{print $2}' | xargs kill -9

2.4 superset启停脚本

superset.sh start

superset.sh stop

#!/bin/bash

superset_status(){
    result=`ps -ef | awk '/gunicorn/ && !/awk/{print $2}' | wc -l`
    if [[ $result -eq 0 ]]; then
        return 0
    else
        return 1
    fi
}
superset_start(){
        source ~/.bashrc
        superset_status >/dev/null 2>&1
        if [[ $? -eq 0 ]]; then
            conda activate superset ; gunicorn --workers 5 --timeout 120 --bind hadoop102:8787 --daemon 'superset.app:create_app()'
        else
            echo "superset正在运行"
        fi

}

superset_stop(){
    superset_status >/dev/null 2>&1
    if [[ $? -eq 0 ]]; then
        echo "superset未在运行"
    else
        ps -ef | awk '/gunicorn/ && !/awk/{print $2}' | xargs kill -9
    fi
}


case $1 in
    start )
        echo "启动Superset"
        superset_start
    ;;
    stop )
        echo "停止Superset"
        superset_stop
    ;;
    restart )
        echo "重启Superset"
        superset_stop
        superset_start
    ;;
    status )
        superset_status >/dev/null 2>&1
        if [[ $? -eq 0 ]]; then
            echo "superset未在运行"
        else
            echo "superset正在运行"
        fi
esac

三、Superset  使用

 

3.1  对接 MySQL  数据源

 

.测试连接 

三、角色授权访问刚才的数据源

编辑角色,给admin角色赋刚刚添加的数据库权限:

四、添加数据表

 在数据表中点击新增的表,即可进行一些查询操作

 

 

3.2  制作仪表盘

2  创建图表

### 电商数据仓库Superset集成 #### 数据仓库概述 数据仓库是一种面向主题的、集成的、相对稳定的、反映历史变化的数据集合,主要用于支持企业的决策分析。不同于传统的联机事务处理(OLTP)系统,数据仓库采用联机分析处理(OLAP)技术,侧重于对历史数据的分析和挖掘,为企业提供全面、准确的决策支持[^1]。 #### Superset简介 Apache Superset 是一款开源的数据探索与可视化平台,能够帮助用户轻松创建交互式的仪表板和图表。通过配置 gunicorn 命令可以启动 Superset 应用服务,例如 `gunicorn -w 1 -t 120 -b 主机名:8787 "superset.app:create_app()"` 可用于部署安装 Superset 实例[^3]。 #### 集成方法 为了实现电商数据仓库Superset 的有效集成,通常遵循以下几个方面: - **连接设置** 使用数据库连接字符串来建立从 Superset数据仓库的安全链接。这涉及到指定正确的驱动程序、主机地址、端口以及认证凭证等参数。 - **模型定义** 在 Superset 中定义物理表或视图对应的逻辑模型,以便更好地映射到实际的数据结构上。这些模型应该反映出数据仓库内的维度表和事实表之间的关系。 - **查询优化** 考虑到大规模数据集可能带来的性能挑战,在设计 SQL 查询时应充分利用索引、分区等功能,并尽可能减少不必要的列读取操作以提高效率。 - **权限管理** 设定细粒度访问控制策略,确保只有授权人员才能查看敏感信息;同时也要保障普通用户的正常使用体验不受影响。 ```sql -- 这是一个简单的SQL语句示例,展示如何从数据仓库中提取销售记录供Superset使用 SELECT date, product_id, SUM(sales_amount) AS total_sales FROM sales_fact_table sf JOIN time_dimension td ON sf.time_key = td.time_key GROUP BY date, product_id; ``` #### 应用场景 一旦成功完成了上述步骤,则可以通过 Superset 对接后的电商平台数仓来进行多种类型的商业智能活动,比如但不限于: - 销售趋势预测; - 客户行为模式识别; - 商品推荐算法训练前的数据准备等等。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

四月天03

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值