MM-UrbanFAC：多模态城市功能区分类模型-优快云博客

MM‐UrbanFAC：基于多模态机器学习的城市功能区分类模型

摘要

目前大多数城市功能区分类方法仅基于单源数据分析与建模，难以充分利用易于获取的多尺度、多源数据。因此，本文提出一种基于多模态机器学习的城市功能区分类模型，通过分析区域遥感图像及区域内访客的行为数据，结合监督方法提取各类数据的深层特征与关联关系，对数据的整体特征与局部特征进行筛选与融合。该模型采用结合SE‐ResNeXt与双路径网络（DPN）的双分支神经网络，自动挖掘并融合多源数据的整体特征；同时利用设计的特征工程深度挖掘用户行为数据，获取更多关联信息；然后结合基于梯度提升决策树的算法，学习不同层次特征的特性，并获得各层次特征的分类概率。最后，继续使用基于梯度提升决策树的算法学习不同层次特征的概率分布，从而得到城市功能区分类的最终预测结果。通过对真实数据集的分析与实验验证，结果表明MM‐UrbanFAC模型能够有效整合多模态数据的特征。相比单一分类器，基于梯度提升树的集成框架提升了预测性能，该方法能有效融合多个模型的结果，准确实现城市功能区分类，该模型可为旅游推荐、城市土地规划与城市建设提供参考。

索引词 —多模态机器学习，城市功能区，神经网络，梯度提升决策树，特征工程。

一、相关工作

随着数据采集技术的发展和数据采集渠道的增加，获取不同规模和不同来源的数据变得越来越容易。然而，初步数据仅包含空间信息或时间信息，很少包含真正需要的深层信息 [1],[2]。城市功能区信息是一种深层信息。现代城市随着不同功能区域的形成和成熟而发展。功能区域为人们提供各种城市功能，以满足他们对社会经济活动的不同需求。对功能区域进行分类以揭示城市的地理和社会特征非常重要，并可应用于旅游推荐、商业选址和城市规划等有价值的工作。因此，准确分类城市功能区具有重要意义。

目前有四种识别城市功能区的方法。第一种是利用人工采集的信息进行分析，例如通过城市用地地图或通过调查收集居民出行信息来对城市功能区进行分类[3],[4]。该方法的准确率受主观因素影响较大，且存在耗时耗力、易出错等缺点，进一步研究受到限制[5]。第二种方法是通过分析遥感图像或GPS数据进行分类，随着GPS技术的发展，遥感图像数据、人车移动数据变得易于获取，其中出租车轨迹数据被用于理解城市结构和人们的出行规律，为功能区分类做出了重要贡献。例如，于静等[6]以及 Qi等[7]通过定性分析建立了出租车GPS数据与城市区域社会功能之间的关系。第三种方法是利用统计与概率方法，通过分析POI数据识别功能区域。例如，Yu等[8]仅使用POI数据，通过网络核密度估计划分城市的中央商务区。迟娇等[9]对POI数据重新分类，利用频率密度和类型比例将城市划分为功能区指数。康宇豪等[10]获取POI密度评分，并通过对各街区POI数据点的定量分析实现武汉市功能区的识别。第四种方法是通过挖掘数据深层信息并结合机器学习算法构建模型来识别功能区域。例如，Yuan等[11]通过引入潜在活动轨迹（LAT）的概念，建立了一个数据驱动的城市功能区发现框架。

GBDT（梯度提升决策树）主要应用于三个方面。一是利用GBDT进行特征选择，以选取重要特征。当存在大量影响较小的特征时，可用于降维。特征选择能在减少特征数量的同时，保持相同甚至更优的学习性能[12]。例如，王[13]等人通过使用GBDT进行特征选择，构建了用户对项目评论的主要特征，GBDT能够有效选出用户评论中的主要特征。二是利用GBDT进行数据预测，例如Dinget al.[14]预测短期地铁乘客数量，并捕捉其与自变量之间的关联。三是用于数据分类。例如，杨[15] et al.将自排列熵描述的非线性特征作为GBDT的输入，对动态脑电图（aEEG）进行分类。

多模型集成方法常用于降低回归或分类相关结果的不确定性，这些方法可分为三类。第一类是平均值法，通常包括简单集成平均法（SEM）和加权集成方法（WEM）。在SEM中，集成中的所有模型（例如一组RCMs或 GCMs）被赋予相等的权重；而在WEM中，集成成员根据其在过去气候模拟中的模拟能力被分配权重[16],[17]。SEM相对简单，通常性能优于单个模型[18],[19],，但 SEM容易受到单个学习器性能的影响。另一方面，WEM有助于减少系统偏差对集合中个别学习器的影响，从而提高集合的预测能力[20]。对于大规模集成，加权平均法容易导致过拟合。第二类是投票法，其缺点是只能考虑分类器之间的线性关系。第三类是元学习方法，Aditya et al.[21]考虑了在集成模式驱动的多阶段学习中采用深度学习（卷积网络）策略。卷积神经网络被用来对不同分类器进行分组，构建用于正常和非健康条件下神经肌肉样本诊断的多层次集成模型，这些分类模型的分组有助于获得最终预测结果。

城市功能区识别是一种分类问题。通过对近年来城市功能区识别研究的分析，我们发现几乎不存在同时考虑多模态数据的功能区分类研究。主要原因是该领域尚缺乏针对多模态数据的有效特征融合与多模型融合解决方案；当我们拥有来自不同来源的多组数据，且这些数据的特征性质各异（异构特征 [22]）时，单一分类器无法学习到所有数据中包含的信息。基于这一发现，本文的贡献如下。

本文提出了一种类别 fi 基于多模态机器学习的城市功能区分类模型，用于有效处理多模态数据并挖掘数据的深层信息。

本文提出了一种基于梯度提升决策树（GBDT）的框架，通过对深度学习模型和机器学习模型的结果进行二次学习，有效利用了多种模型，同时提高了分类准确率。该方法能够在多维特征和复杂模型的情况下避免过拟合现象。

本文讨论了集成方法在不平衡数据上的性能，并比较了常见的集成方法。我们对比了不同集成方法在噪声数据下的性能，证明了本文提出的基于GBDT的集成方法的优越性。

II. 实验流程

本文的实验流程如图1所示。在集成模型A中，将预处理后的图像和用户访问数据文件输入以获取集成特征，并对用户访问数据文件进行设计的特征工程处理，得到文件的基本特征、用户的局部特征以及区域的全局特征，同时将用户访问数据文件的其他基本特征（182×24×5的矩阵）作为补充。通过GBDT方法获得不同特征的概率集合，并将不同的概率集合结合，再次使用GBDT方法进一步学习以得到最终预测结果。

示意图0

III. 基于梯度提升决策树的集成方法

A. 为什么集成方法有效

集成学习是通过生成和组合多个学习器来解决特定的机器学习任务。集成方法的直观解释是将机器学习类比为群体智能。与单一模型相比，集成方法能够有效提升预测性能。集成方法通常能提高预测性能的原因有多种 [22]。

过拟合避免 ：当数据量过小或模型过于复杂时，模型容易过度拟合所有训练数据，从而对非训练数据做出错误预测。通过对不同模型的结果进行平均，可以降低出错风险，提高整体预测性能。
计算优势 ：进行局部搜索的单个学习器可能会陷入局部最优。通过结合多个学习器，集成方法降低了获得局部最小值的风险。
表示能力 ：最优假设可能位于任何单一模型的空间之外。通过结合不同的模型，可以扩展搜索空间，从而更好地拟合数据空间。

B. 集成模型

给定一个包含 n 个样本和 m 个特征的数据集 D
$$D={(x_i, y_i)} \mid (|D| = n, x_i \in R^m, y_i \in R)$$ (1)
集成模型 $\phi$ 使用了聚合函数 $G{f_1,f_2,…,f_k}$，用于预测单个输出，结果如下：
$$\hat{y}_i= \phi(x_i)= G{f_1, f_2,…, f_k}$$ (2)
当 $y_i \in Z$ 时，即为本文研究的分类问题。基于整体框架，集成模型的构建主要是选择一种或多种方法来训练子模型，并选择适当的过程来组合学习器的输出。

C. 用于多分类问题的梯度提升决策树

GBDT 采用提升的思想。提升方法以串行方式训练基分类器，基分类器之间存在依赖关系。每一层对前一层分错的样本赋予更高的权重。在测试时，通过加权各分类器的结果得到最终结果。GBDT 的原理是在每一步预测中使用决策树来拟合当前学习器的残差，从而得到一个新的弱学习器。通过组合每一步的决策树，最终获得一个强学习器。假设有一个数据集 $D={(x_i,y_i)} \mid(|D| = n, x_i \in R^m, y_i \in R)$，第 $k − 1$ 步得到的集成学习器为 $F_{k−1}(x)$，则 GBDT 可通过以下公式获得一个新的弱学习器 $h(x)$：
$$F_k(x)= F_{k−1}(x)+ \argmin_{h \in H} \sum_{i=1}^{n} Loss(y_i, F_{k−1}(x_i)+ h(x_i))$$ (3)
其中 $h(x)$ 是函数空间 $H$ 上的最小化损失函数。当GBDT对应分类问题时，它本质上使用一系列梯度提升树来拟合对数概率 $\ln \frac{p}{1-p}$，最终结果是一系列回归树。相应的分类模型可表示如下：
$$P(y= 1|x)= \frac{1}{1+ e^{-\sum_{k=0}^{K} h_k(x)}}$$ (4)
其中 $h_k(x)$ 是学习到的决策树，且单个样本 $(x_i,y_i)$ 的损失函数可表示为交叉熵，如下所示：
$$loss(x_i, y_i)= -y_i\log \hat{y} i -(1 - y_i)\log(1 - \hat{y}_i)$$ (5)
损失函数相对于当前学习器的负梯度可以如下获得：
$$- \frac{\partial loss}{\partial F(x)} | {x_i, y_i}= y_i - \frac{1}{1+ e^{-F(x_i)}} = y_i - \hat{y} i$$ (6)
将GBDT应用于多分类问题时，应考虑使用softmax模型：
$$P(y= k|x)= \frac{e^{F_k(x)}}{\sum {i=1}^{k} e^{F_i(x)}}$$ (7)
其中 $k$ 表示集成 $k$ 棵不同的回归树。每轮训练实际上会训练 $k$ 棵树，以拟合softmax各分支模型的负梯度。对于单个样本的softmax，其损失函数如下：
$$loss= -\sum_{i=1}^{k} y_i\log P(y_i|x) = -\sum_{i=1}^{k} y_i\log \frac{e^{F_i(x)}}{\sum_{j=1}^{k} e^{F_j(x)}}$$ (8)
$y_i(i= 1,…, k)$ 是样本在 $k$ 个类别上进行独热编码后的标签值，可由上述表达式得到：
$$- \frac{\partial loss}{\partial F_q} = y_q - \frac{e^{F_q(x)}}{\sum_{j=1}^{k} e^{F_j(x)}} = y_q - \hat{y}_q$$ (9)

D. 集成方法

为了利用不同概率预测模型的学习结果，对于数据集 $D ={(x_i, y_i)} \mid(|D| =n, x_i \in R^m, y_i \in R)$，对于任意学习器 $f$，对于任意一组数据 $(x_i, y_i)$，其输出可定义为 $S =(p_1, p_2,…, p_k)$，其中 $k$ 为标签类型数量，$p_k$ 表示该组数据在相应标签类别上的概率，$S$ 是学习器 $f$ 在该组数据上得到的所有标签类别的概率分布。
对于数据集 $D$，学习器 $f$ 得到的概率分布结果为 $F={S_1, S_2,…, S_n} |(n= |D|)$。对于子学习器集合 $M={f_1,f_2,…,f_n}$，$n$ 为学习器数量。同时，通过结合不同学习器对数据集预测的概率分布，获得概率分布组合 $F’={F_1^T, F_2^T,…, F_k^T}$，并在集成模型中基于 GBDT方法进行二次学习，从而得到相应数据的最终分类结果。

IV. 监督式特征提取与融合

A. 数据集

由IKCEST（联合国教科文组织下属国际工程科学技术知识中心）提供的40,000个样本：每个样本对应一个城市功能区，如表I所示。城市功能区分为九类。每个样本包含一张高分辨率遥感图像和一条脱敏用户访问记录，对应一种城市功能区。可以明显看出，该样本集属于不平衡数据集。其中住宅区有9542个样本，而火车站仅有1358个样本。如何有效解决不平衡样本下模型的性能问题也是一大难点。每个遥感图像样本为 100 × 100像素的JPG图像文件，如图2所示。用户访问记录是用户ID在不同日期和时间的访问记录，记录格式为USERID\tdaya&hourx|houry|..,dayb&hourx|hourz| …。

示意图1

B. 访问数据总体特征

通过对访问数据的整体分析，从开始到结束的数据总天数为182天，且统计了每个区域每天每小时的游客总数，这意味着每个区域的访问数据可以细分为24小时中每小时的游客数量，访问数据的整体特征可表示为一个 182 × 24的矩阵，每次访问所提取的特征矩阵将作为训练集。采用未进行预训练的双路径网络（DPN）‐26(32× 3D)网络来学习访问数据的特征并提取深度特征。

C. 遥感图像特征

首先，通过去除数据中的所有黑白图像对图像数据进行去噪处理，其余图像通过暗通道去雾[23]和直方图均衡化进行处理。通过对遥感图像的分析与实验，由于数据提供的图像清晰度较低且覆盖范围较小，仅依靠图像特征提取难以显著提高模型的分类准确率。因此，直接采用基于 ImageNet预训练的SE‐ResNext‐50(32 × 4D)分支模型进行遥感图像的特征提取。

D. 用户基本特征

在一个区域的访问数据中，根据全部数据提取不同时段的统计特征，包括总和、平均值、标准差、最大值和最小值这五个统计量，并按照节假日、工作日和周末进行区分。

E. 用户局部特征

区分每个用户在各个区域的访问数据。

F. 用户全局特征

通过对访问数据中所有用户的统计，发现不同访问数据中存在相同的用户。也就是说，一个用户与不同的功能区域相关，因此考虑提取两个基于用户特征。

1）统计用户在不同地点出现的次数，以每天一次表示，然后在特征中统计5项统计数据。2）判断相邻区域。对于相邻区域的定义，即同一用户在两个相邻时间段内出现在不同区域，则可判定这两个相邻区域为相邻区域。

G. 多级特征融合

通过双分支神经网络和特征工程提取的特征被分为三个层次。第一级是通过双分支神经网络提取的遥感图像与访问数据的集成特征。第二级是访问数据的整体特征。第三级是基于用户特征对访问数据进行深度挖掘得到的特征。
对于每一级，分别使用XGBoost和LightGBM进行训练并输出概率估计，并将来自不同层次和不同梯度提升方法的概率估计进行融合，作为多级特征的最终融合特征。

V. 集成模型

A. SE-ResNeXt和DPN双分支网络

在集成模型A中，图像网络分支采用SE‐ResNeXt50(32×4d)结构用于从遥感图像中学习和提取特征；访问网络分支采用简化的DPN‐26(32 × 3d)结构用于从用户行为数据中学习和提取整体特征。分支网络的具体结构如表II所示。

双分支模型中每个分支网络的处理过程相同。如图3所示，将分支网络的softmax层输入截取作为分支学习的特征，并对维度进行简单加法处理，以实现遥感图像与用户访问数据整体特征的融合。

示意图2

B. XGBoost

XGBoost 是一种基于提升方法的可扩展学习系统，能够自动利用多线程 CPU，改进梯度提升方法，增加剪枝算法并控制模型复杂度。与传统梯度提升决策树算法相比，XGBoost不仅支持回归树作为基分类器，还支持线性分类器。它还借鉴了随机森林的方法，支持列采样，减少了过拟合和计算量[24]。
与普通梯度提升决策树相比，XGBoost 具有以下优势。
1) 显式地将模型复杂度作为正则项添加到优化目标中。
2) 在公式推导中使用了二阶导数信息，而普通GBDT仅使用一阶。
3) 实现了分裂节点的近似算法，以加速并减少内存消耗。
4) 节点分裂算法可以自动利用特征稀疏性。
5) 数据预先排序并以块形式存储，便于并行计算。
在集成模型B的GBDT处理部分，采用XGBoost分类方法来学习不同层次的特征，并输出不同层次特征的估计概率分布。

C. LightGBM

LightGBM 是一种基于决策树算法的分布式梯度提升框架。XGBoost 采用预排序的方法，在计算过程中按值进行排序，并根据数据样本逐一计算分割增益。这种算法能够准确地找到最优分割值，但当成本相对较大时，其泛化能力并不理想。而在 LightGBM 中，不再使用传统的预排序思路，而是将这些精确的连续值划分为一系列离散字段，即分箱。以浮点数据为例，某个区间内的值将被视为一个分箱，然后以分箱作为精度单位构建直方图。通过这种方式，数据表达更加简化，减少了内存使用，并为直方图带来一定的正则化效果，使模型能够避免过拟合，具备更好的泛化能力。通过分箱对直方图进行索引，因此无需按照每个特征值进行排序，也无需比较不同特征的值，从而大大降低了计算量。同时，当使用分箱来描述数据特征时，无需像 XGBoost 中使用的预排序算法那样存储每个排序后数据的序列。在 LightGBM 中，该部分的计算成本为 0，且分箱通常被控制在相对较小的范围内，因此所使用的存储空间更小 [25]。
总之，LightGBM在不影响准确率的情况下，大大降低了内存占用和计算量，从而带来了更快的训练速度和效率。
在集成模型B的GBDT处理部分，采用LightGBM分类方法来学习不同层次的特征，并同时输出不同层次特征的估计概率分布。

VI. 多模型机器学习模型

A. 数据增强

为了避免双分支神经网络在重复训练过程中出现过拟合，对遥感图像的全局特征和访问数据进行数据增强处理，可以在一定程度上抑制过拟合并提高准确率。
针对经过去噪、去雾和直方图均衡化处理后的遥感图像集，采用了用于Python中机器学习的图像增强库 Augmentor。该库能够更方便地实现对图像增强的细粒度控制，并实现最真实的相关性增强技术[26]。
在本文提出的模型的分支神经网络中，图像处理分支网络使用Augmentor模块，在每批次训练中随机翻转、旋转、小比例裁剪并处理各种模糊情况。在整体特征处理的分支网络中，访问数据的处理中，首先对访问矩阵进行归一化和标准化，即对访问取对数（1+ visit），将矩阵中的每个元素除以其所在列的和，再将矩阵中的每个元素除以其所在列的平方和的平方根，并将这五个处理后的矩阵沿每个矩阵的一个维度拼接成一个 5 × 182 × 24矩阵。这样在很大程度上利用了访问数据的整体特征，也在一定程度上抑制了分支网络的过拟合。

B. 渐进式预热

预热是一种在ResNet提出初期所提出的针对学习率的预热方法。通过在训练开始时使用较小的学习率，在经过预定规模的训练轮次后，再调整为预设的学习率继续训练。提出预热的原因在于，部分模型的权重在训练初期是随机初始化的，此时若选择较大的学习率，可能导致训练结果不稳定。通过学习率预热，使刚开始训练的若干个轮次的学习率较小，在该预热的小学习率下，模型能够趋于稳定，然后再采用预设的学习率进行训练直至相对稳定，从而加快模型的收敛速度并提升训练效率。
预热的缺点是当学习率发生变化时，可能会导致训练误差突然增加。2017年，Facebook提出了渐进式预热 [27]来解决这一问题，渐进式预热是指从初始的小学习率开始，每一步略微增加，直到达到预设的大学习率，然后使用该学习率进行后续训练。
本文提出的模型采用渐进式预热来调整双分支神经网络的学习率，这在一定程度上提高了整个融合特征提取的效率。

C. 多级特征融合框架

通过监督和无监督方法对多模态信息进行三级特征提取。如图 4 所示，第一级特征是由双分支神经网络从遥感图像和访问数据的整体特征矩阵中提取的集成特征，即两种不同模式数据的初始融合特征；第二级特征是访问数据的整体特征矩阵；第三级特征是通过对访问数据进行基于用户特征挖掘所整合的深层特征。
从三个层次提取的特征学习分为两个步骤。第一步是使用XGBoost和LightGBM分类方法对每一层的特征进行学习，并输出各样本在不同分类中的概率估计。第二步是将不同分类方法对应于不同层次特征的概率估计拼接在一起并使用LightGBM用于学习拼接后的概率估计集。最后，输出分类结果。

示意图3

VII. 案例研究

A. 实验描述

基于40,000个样本，对本文提出的 MM‐UrbanFAC模型进行测试，以验证其有效性。在研究中，将区域内的遥感图像和一组用户访问数据分类为城市功能区。数据集被划分为训练集和验证集，训练集与验证集的比例为4:1，验证了所提出方法与分支模型在各项指标上的性能。比较了该方法在不平衡数据集上的性能。将基于梯度提升树融合概率集合的方法与其他常见的输出融合方法进行了比较。

B. MM-UrbanFAC分析

我们选择Micro‐F1和Macro‐F1作为评估指标。在统计学中，F1分数是用于衡量二分类模型准确率的评估指标之一，常用于衡量不平衡数据的分类准确率，它综合考虑了分类模型的精确率和召回率。F1分数可被视为模型精确率和召回率的加权平均值。在多分类问题中，若要计算模型的F1分数，有两种计算方法，即Micro‐F1和 Macro‐F1。Micro‐F1是适用于不平衡数据，但极度不平衡的数据也会影响结果。
假设存在一个k类多分类问题，TPi表示第i类的真正例，FPi表示第i类的假正例，TNi表示第i类的真反例，FNi表示第i类的假反例，样本总数为Total=∑k i=1(TPi+FNi) =∑k i=1(TPi+FPi)，我们可以得到
$$Accuracy= \frac{\sum_{i=1}^{k} TP_i}{Total}$$ (10)
$$Recall= \frac{\sum_{i=1}^{k} TP_i}{\sum_{i=1}^{k}(TP_i+ FN_i)} = \frac{\sum_{i=1}^{k} TP_i}{Total}$$ (11)
$$Precision= \frac{\sum_{i=1}^{k} TP_i}{\sum_{i=1}^{k}(TP_i+ FP_i)} = \frac{\sum_{i=1}^{k} TP_i}{Total}$$ (12)
$$Micro - F1= \frac{2 \times Recall \times Precision}{Recall+ Precision} = Accuracy$$ (13)
换句话说，对于多分类问题，Micro‐F1、精确率、召回率和准确率是相同的。与Micro‐F1相比，Macro‐F1不受不平衡数据的影响，但容易受到识别率较高类别（高召回率或高精确率）的影响。对于每个类别，按下式计算其 F1‐score值：
$$F1 - score_i= \frac{2 \times Recall_i \times Precision_i}{Recall_i+ Precision_i}$$ (14)
$$Macro - F1= \frac{\sum_{i=1}^{k} F1 - score_i}{k}$$ (15)
换句话说，多分类中的Macro‐F1值是对k个类别的 F1分数取平均值。本文还使用卡帕系数作为参考，卡帕系数是衡量分类准确率的指标，对应公式如下：
$$kappa= \frac{p_o - p_e}{1 - p_e}$$ (16)
其中，$p_o$ 是正确分类的样本数与样本总数的总和，即准确率，至于 $p_e$：
$$p_e= \frac{\sum_{i=1}^{k} a_ib_i}{Total^2}$$ (17)
其中，$a_i$ 是类别 $i$ 中的真实样本数量，$b_i$ 是类别 $i$ 的预测样本数量。
例如，MM‐UrbanFAC获得的最终分类结果及相应模型参数如图5所示。主要对比的分支模型包括基于 SE‐ResNeXt50的SE‐ResNeXt、基于DPN26的DPN，以及图像和访问数据的双分支模型Dual。特征工程挖掘特征处理的LightGBM分支模型LightGBM(f)和XGBoost分支模型XGBoost(x)。从图5可以看出，不同层次的分支模型对数据的学习程度各不相同。

示意图4

各模型对应的混淆矩阵热力图如图6所示。由于数据为不平衡数据，因此对每一类的样本数量进行了归一化处理。从图中可以看出，随着集成模型深度的增加，每一类的准确率均有所提升，且MM‐UrbanFAC在每一类别上的性能均优于其他子学习器。

示意图5 、XGBoost(f)、MM‐UrbanFAC） .)

C. GBDT集成方法分析

同时，我们将本文提出的基于GBDT的集成方法与常见的集成方法进行比较。对比的方法包括软投票、硬投票以及可能最流行的随机森林方法。硬投票方法的思想是根据少数服从多数原则确定最终结果，软投票以所有模型预测样本的平均概率作为标准，概率最高的对应类型即为最终预测结果，而随机森林[28]。
通过选择卡帕系数、Micro‐F1和Macro‐F1作为评估指标，可以看出基于输出融合的两种投票法无法很好地整合具有不同准确率和数据源的学习器结果，因此在表III 中各项指标略低于MM‐UrbanFAC，而基于装袋思想的随机森林性能优于投票法，基于提升思想的GBDT性能优于随机森林方法。

D. 鲁棒性分析

我们向集成模型中添加了一个随机打乱的概率集合。噪声概率集的混淆矩阵如图7所示。可以看出，噪声数据集的性能远低于分支模型。我们还使用第VII‐C小节中比较的其他集成方法来分析不同集成方法对噪声数据的适应性。由于卡帕系数、Micro‐F1和Macro‐F1是评估指标，不同方法的性能集成方法的结果如表IV所示，整体性能与表III一致。如图8所示，关于含噪声与无噪声数据之间的差异，基于投票的方法下降幅度高于随机森林方法，而基于GBDT的方法在加入噪声的情况下性能更稳定，甚至略有提升。由此可见，本文提出的基于GBDT的集成方法比其他常见的集成方法具有更好的鲁棒性。

示意图6

示意图7

表III 集成方法的性能	卡帕系数	Micro-F1	Macro-F1
硬投票	0.612	0.621	0.598
软投票	0.618	0.627	0.604
随机森林	0.635	0.643	0.621
MM‐UrbanFAC (GBDT)	0.658	0.667	0.645

表IV 含噪声数据的集成方法性能	卡帕系数	Micro-F1	Macro-F1
硬投票	0.581	0.589	0.567
软投票	0.587	0.595	0.573
随机森林	0.602	0.610	0.588
MM‐UrbanFAC (GBDT)	0.655	0.664	0.642

VIII. 结论

在特征挖掘过程中，充分考虑了不同层次特征与数据之间的关联。在监督情况下，利用双分支神经网络对多模态数据的整体特征进行提取和融合。在监督情况下，采用双分支神经网络提取多模态数据的整体特征，并从多个角度对用户访问数据的深层特征进行融合与挖掘。综合考虑时间、用户、位置和关联等特征集，使用基于GBDT的框架提取多模态数据的整体特征，进一步研究层次特征，并实现不同方法和不同层次特征的最终融合。
通过使用概率集合来实现特征融合。实验结果表明，该集成方法真实有效，优于任何单个学习器的实验结果。其性能和鲁棒性优于其他常见集成方法。通过对多层次特征的学习与融合，有效提升了多模态信息的利用效率和学习效率，提高了分类准确率。
未来，我们将关注自动集成方法的可行性与优化方法，深入探索如何促进不同先进的深度学习和机器学习算法在多源数据特征提取与选择中的多样性。通过本文提出的多模态机器学习框架，可充分释放移动大数据与遥感图像结合的潜力。城市作为复杂系统，承担着居住、商业和商务区域的多种功能。通过人工智能与卫星图像的结合，理解城市空间结构并实现精细化管理具有重要意义，该解决方案还可拓展至智慧农业、智慧城市环境等其他行业。