使用bqplot构建特征向量分布可视化工具-优快云博客

本文链接：https://blog.youkuaiyun.com/gitblog_00574/article/details/148575108

使用bqplot构建特征向量分布可视化工具

bqplot Plotting library for IPython/Jupyter notebooks 项目地址: https://gitcode.com/gh_mirrors/bq/bqplot

前言

在数据分析和机器学习领域，可视化特征向量的分布对于理解数据特性至关重要。本文将介绍如何使用bqplot这一强大的交互式绘图库，构建一个能够展示多维特征分布的可视化工具。

核心概念解析

bqplot基础组件

Figure（画布）
作为绘图的基础容器，可以理解为承载各种可视化元素的底板。一个Figure可以包含多个Marks。

Marks（标记）
实际的绘图元素，包括散点图(Scatter)、柱状图(Bars)、线图(Lines)等。多个Marks可以叠加在同一个Figure上。

Scales（比例尺）
定义数据如何映射到可视化空间，常用的有：

LinearScale：线性比例尺
OrdinalScale：序数比例尺（用于分类数据）

Axes（坐标轴）
控制坐标轴的显示方式，可以设置标签、刻度样式等。

交互式组件

Dropdown（下拉菜单）
允许用户选择不同的特征进行可视化对比。

Tooltip（工具提示）
当鼠标悬停在数据点上时显示的额外信息。

实现原理

数据准备

特征标准化：使用sklearn的scale函数对原始特征进行标准化处理
PCA降维（可选）：对高维数据应用PCA降维，提取主要特征
构建DataFrame：将处理后的特征与标签信息整合到pandas DataFrame中

可视化布局

整个可视化界面采用3部分布局：

顶部控制区：包含两个Dropdown组件，用于选择X轴和Y轴的特征
中间区域：
- 左侧：X轴特征的直方图分布
- 右侧：图例展示（各类别的计数和颜色标识）
底部区域：
- 主区域：散点图展示两个特征的联合分布
- 右侧：Y轴特征的直方图分布

核心功能实现

def feature_vector_distribution(features, label_column, bins=25, 
                              group_columns=None, f_lim=None, colors=None):
    # 初始化各种比例尺
    sc_x = LinearScale(min=f_lim["min"], max=f_lim["max"]) if f_lim else LinearScale()
    sc_y = LinearScale(min=f_lim["min"], max=f_lim["max"]) if f_lim else LinearScale()
    
    # 创建下拉菜单组件
    feature_x = Dropdown(description="Feature 1")
    feature_y = Dropdown(description="Feature 2")
    
    # 为每个类别创建散点图和直方图
    for index, group in enumerate(features.groupby([label_column])):
        # 散点图
        scatters.append(Scatter(
            x=group[1][feature1].values,
            y=group[1][feature2].values,
            scales={"x": sc_x, "y": sc_y},
            colors=[colors[index]]
        ))
        
        # 直方图（使用Bars模拟）
        h_y, h_x = np.histogram(group[1][feature1].values, bins=h_bins_x)
        hists_x.append(Bars(
            x=h_x, y=h_y,
            scales={"x": sc_x, "y": scale_y},
            colors=[colors[index]]
        ))
    
    # 组装最终可视化界面
    return VBox([
        HBox([feature_x, feature_y]),  # 控制面板
        HBox([f_hists_x, f_legend]),   # 上部区域
        HBox([f_scatter, f_hists_y])   # 下部区域
    ])

应用示例

鸢尾花数据集分析

from sklearn.datasets import load_iris

# 加载并预处理数据
digits = load_iris()
data = scale(digits.data)
df = pd.DataFrame(data, columns=["feature_"+str(x) for x in range(4)])
df["leaf"] = digits.target

# 创建可视化
feature_vector_distribution(
    df, "leaf", bins=25, 
    f_lim={"min": -3, "max": 3}
)

手写数字数据集分析（PCA降维后）

from sklearn.datasets import load_digits

# 加载数据并应用PCA
digits = load_digits()
data = scale(digits.data)
pca = PCA(n_components=10).fit(data)
df = pd.DataFrame(pca.transform(data), 
                 columns=["pca_"+str(x) for x in range(10)])
df["digit"] = digits.target

# 创建可视化
feature_vector_distribution(
    df, "digit", bins=20,
    f_lim={"min": -7, "max": 7}
)