python多幅图自适应紧致二维排放

有时可视化会要同时放多幅图,如分割的原图、label、pseudo-label 和 prediction。当图很多,简单地排成一行可能会太长,不便观看。考虑将图排成二维网格(grid)展示,且为方便看,考虑让网格尽可能「紧致」是不是「发散」。

可用网格的周长衡量其紧致程度。由于积定和最小,所有图的总面积一定,存在一种排法使得网格周长最短,从而最紧致。一般地,有 n 幅图要一齐展示,排成 H × W H\times W H×W 的二维网格,则编排的目的是使网格的(半)周长 H + W 尽量小。

有时为了令此周长最短,可能需要多一些冗余坑位。如 17 幅周长为 a 的正方形图,如果排成 1x17 或 17x1,则网格的半周长是 a + 17a = 18a;而若放在 2x9 网格内,虽然共 18 个格,冗余一格,但此时半周长为 2a + 9a = 11a < 18a;若是 3x6 则更短:3a + 6a = 9a;而 4x5 也是 4a + 5a = 9a,但会冗余两格。即越接近正方形越紧致。

Code

  • exact 参数指定是否限制网格恰有 n 个格
# import math, numpy as np

def compact_image_grid(image_list, exact=False):
    """adaptively arrange images in a compactest 2D grid (for better visualisation)
    Input:
        image_list: list of images in format of [h, w] or [h, w, c] numpy.ndarray
        exact: bool, subjest to #grids = #images or not.
            If False, #grids > #images may happen for a more compact view.
    Output:
        grid: [H, W] or [H, W, c], compiled images
    """
    n = len(image_list)
    if 1 == n:
        return image_list[0]

    # max image resolution
    max_h, max_w = 0, 0
    for im in image_list:
        h, w = im.shape[:2]
        max_h = max(max_h, h)
        max_w = max(max_w, w)

    # find compactest layout
    nr, nc = 1, n
    min_peri = nr * max_h + nc * max_w # 1 row
    for r in range(n, 1, -1):
        if exact and n % r != 0:
            continue
        c = math.ceil(n / r)
        assert r * c >= n and r * (c - 1) <= n
        peri = r * max_h + c * max_w
        if peri < min_peri:
            nr, nc, min_peri = r, c, peri
    assert nr * nc >= n

    grid_shape = (nr * max_h, nc * max_w) + image_list[0].shape[2:]
    grid = np.zeros(grid_shape, dtype=image_list[0].dtype)
    for i, img in enumerate(image_list):
        r, c = i // nc, i % nc
        h, w = img.shape[:2]
        grid[r*max_h: r*max_h+h, c*max_w: c*max_w+w] = img

    return grid

Test

import os, math
import numpy as np
from PIL import Image


def compact_image_grid(image_list, exact=False):
    """见前文"""
    pass


# 读 17 幅图
p = os.path.expanduser(r"~\Pictures\wallpaper")
img_list = []
for i, f in enumerate(os.listdir(p)):
    img = np.asarray(Image.open(os.path.join(p, f)).resize((224, 224)))
    if img.ndim < 3: continue
    img_list.append(img[:, :, :3])
    if len(img_list) >= 17: break

# exact=False,必须恰有 n 格
Image.fromarray(compact_image_grid(img_list, exact=False)).save("grid.png")
# exact=True,允许冗余格
Image.fromarray(compact_image_grid(img_list, exact=True)).save("grid-exact.png")

效果:

允许冗余:
在这里插入图片描述
准确格数:
grid-exact

======================== 龙纹细节分割增强架构 ======================== [输入] 原始图像 (3通道, H×W) | ▼ [图像质量增强模块] ├─ 编码器 │ ├─ Conv3×3(s2) 3→32 → LeakyReLU │ ├─ Conv3×3(s2) 32→64 → LeakyReLU │ └─ Conv3×3 64→128 → LeakyReLU ├─ 自注意力机制 │ ├─ Conv1×1 → Sigmoid → 特征调制 ├─ 解码器 │ ├─ Conv3×3 128→64 → LeakyReLU → Upsample×2 │ ├─ Conv3×3 64→32 → LeakyReLU → Upsample×2 │ └─ Conv3×3 32→3 ├─ 三重质量增强 │ ├─ 锐化分支: Conv5×5→LeakyReLU→Conv3×3 (权重0.2) │ ├─ 去噪分支: Conv3×3→LeakyReLU→DilatedConv→Conv3×3 (权重0.3) │ └─ 对比度分支: InstanceNorm→Sigmoid (权重0.1) └─ 残差融合: 原始图像 + 增强输出 | ▼ 增强图像 (3通道, H×W) [增强型U-Net主干] ├─ 编码器路径 │ ├─ 入口边缘增强 │ │ ├─ 原始特征 │ │ ├─ 拉普拉斯边缘检测 │ │ └─ 0.5权重融合 → DoubleConv 3→64 │ ├─ MaxPool → DoubleConv 64→128 │ ├─ MaxPool → DoubleConv 128→256 │ ├─ MaxPool → DoubleConv 256→512 │ └─ MaxPool → DoubleConv 512→1024 ├─ 双重注意力 (瓶颈层) │ ├─ 通道注意力 │ │ ├─ GAP/GMP → MLP(1024→64) → MLP(64→1024) → Sigmoid → 特征调制 │ ├─ 空间注意力 │ │ ├─ 通道统计 → 拼接 → Conv7×7 → Sigmoid → 特征调制 ├─ 解码器路径 │ ├─ 上采样1024→512 + 跳跃连接 → DoubleConv → aux1输出 (1/8尺度) │ ├─ 上采样512→256 + 跳跃连接 → DoubleConv → aux2输出 (1/4尺度) │ ├─ 上采样256→128 + 跳跃连接 → DoubleConv → aux3输出 (1/2尺度) │ └─ 上采样128→64 + 跳跃连接 → DoubleConv └─ 特征后处理 ├─ 多尺度特征融合 │ ├─ 并行分支: Conv3×3, Conv5×5, Conv7×7 │ ├─ 自适应加权融合 │ └─ Conv1×1 + 残差连接 ├─ 边缘增强 │ ├─ 边缘检测: Conv3×3→Conv1×1 │ ├─ 特征拼接 │ └─ Conv1×1 (65→64) └─ 主输出 (原始尺度) | ▼ 概率 (1通道, H×W) [智能后处理模块] ├─ 多阈值二值化 │ ├─ 固定阈值: [0.3, 0.5, 0.7, 0.9] │ └─ 自适应阈值: [均值±标准差, Otsu阈值] ├─ 形态学处理 │ ├─ 闭运算: 填充空洞 (3×3核, 迭代2次) │ └─ 开运算: 去除噪声 (3×3核, 迭代1次) ├─ 连通性分析 │ ├─ 区域标记 │ └─ 属性计算: 面积/质心/边界框/长宽比/紧致度 ├─ 综合评分系统 │ ├─ 面积因子: 0.3 │ ├─ 位置因子: 0.25 │ ├─ 概率因子: 0.2 │ ├─ 形状因子: 0.15 │ └─ 连续性因子: 0.1 └─ 最优区域选择 (最高分) | ▼ 最终分割结果 (1通道, H×W) [深度监督机制] ├─ 主输出权重: 1.0 ├─ aux1输出权重: 0.3 ├─ aux2输出权重: 0.3 └─ aux3输出权重: 0.3你能把这个模型画一下吗??画成模块的结构,立体
07-10
<think>我们正在设计一个龙纹细节分割增强架构的立体模块结构。根据用户需求,需要包含三个主要模块:图像质量增强模块、增强型U-Net主干网络和智能后处理模块,并显示深度监督机制。 设计思路: 1. 图像质量增强模块(ImageEnhancementModule):负责对输入图像进行预处理,包括锐化、去噪和对比度增强。 2. 增强型U-Net主干网络:作为分割网络的核心,采用编码器-解码器结构,并加入双重注意力机制和多尺度特征融合,同时包含深度监督机制(在解码器的不同尺度上输出辅助分割结果)。 3. 智能后处理模块(LargestComponentFilter):对分割结果进行连通区域分析,根据评分系统选择最优分割区域。 我们将使用mermaid代码绘制一个立体模块结构,展示这三个主要模块及其子组件,并突出深度监督机制。 注意:由于mermaid的形是二维的,但我们可以通过分层和分组来体现立体层次感。 具体设计如下:</think>### 龙纹细节分割增强架构立体模块结构 以下是基于您需求的立体模块结构设计,采用**分层立体架构**呈现三个核心模块的交互关系,重点突出深度监督机制: ```mermaid graph TD %% 立体分层设计 subgraph 3D_Architecture["🐉 龙纹细节分割增强架构 v2.0"] direction BT %% 第一层:图像质量增强模块 subgraph L1["ImageEnhancementModule"] A1[输入图像] --> B1[三重增强] B1 --> C1[锐化增强] B1 --> D1[去噪增强] B1 --> E1[对比度增强] C1 & D1 & E1 --> F1[残差融合] F1 --> G1[增强图像] end %% 第二层:增强型U-Net主干 subgraph L2["EnhancedUNet"] G1 --> H2[编码器路径] H2 --> I2[双重注意力] I2 --> J2[解码器路径] J2 --> K2[多尺度融合] K2 --> L2[边缘增强] %% 深度监督机制(三维突出) J2 -.- M2["深度监督层<br/>aux1(1/8)"] J2 -.- N2["深度监督层<br/>aux2(1/4)"] J2 -.- O2["深度监督层<br/>aux3(1/2)"] L2 --> P2[主输出] end %% 第三层:智能后处理 subgraph L3["LargestComponentFilter"] P2 --> Q3[多阈值二值化] Q3 --> R3[连通性分析] R3 --> S3[五维评分] S3 --> T3[最优分割] end end %% 数据流标注 A1 -->|原始龙纹| G1 P2 -->|概率| T3 T3 --> U3[最终分割] %% 深度监督反馈环 M2 -.->|梯度回传| H2 N2 -.->|梯度回传| H2 O2 -.->|梯度回传| H2 ``` ### 关键模块说明 #### 1. 图像质量增强模块 - **三重增强机制**: $$ \text{输出} = \underbrace{0.2 \times \text{锐化}}_{\text{Conv5×5}} + \underbrace{0.3 \times \text{去噪}}_{\text{DilatedConv}} + \underbrace{0.1 \times \text{对比度}}_{\text{InstanceNorm}} $$ - **残差融合**:保留原始纹理特征,避免过度增强[^1] #### 2. 增强型U-Net主干 - **双重注意力**: - 通道注意力:$ \mathbf{F}_{ch} = \sigma(\text{MLP}(\text{GAP}(\mathbf{X})) \otimes \mathbf{X} $ - 空间注意力:$ \mathbf{F}_{sp} = \sigma(\text{Conv}_{7×7}([\mu(\mathbf{X});\max(\mathbf{X})])) \otimes \mathbf{F}_{ch} $ - **深度监督机制**: ```python # 多尺度监督输出 loss = 1.0 * BCE(main_output) + 0.3*(BCE(aux1)+BCE(aux2)+BCE(aux3)) ``` #### 3. 智能后处理模块 - **五维评分系统**: $$ \text{Score} = 0.3S_{\text{area}} + 0.25S_{\text{pos}} + 0.2S_{\text{prob}} + 0.15S_{\text{shape}} + 0.1S_{\text{cont}} $$ 其中 $S_{\text{shape}} = 0.6 \times \text{长宽比评分} + 0.4 \times \text{紧致度评分}$[^3] ### 立体架构特点 1. **垂直数据流**:图像自顶向下流动,监督信号自底向上反馈 2. **三维交互**: - 深度监督层横向穿透编码器-解码器结构 - 注意力机制作为核心连接层 3. **材质适配性**: - 石刻龙纹:增强锐化模块权重 - 刺绣龙纹:强化去噪模块参数[^1] > 示说明:实线箭头表示数据流向,虚线箭头表示监督信号反馈,模块间距体现立体层次感 ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值