智能数据驱动工业资源规划

原创于 2025-10-16 13:58:47 发布 · 333 阅读

5 ·

CC 4.0 BY-SA版权

文章标签：

#数据驱动 # 资源规划 # 机器学习 # 工业建筑 # 模块化

用于增强工业建筑初步资源规划的智能数据驱动方法

摘要

工业建筑通常采用快速推进模式，工程与施工阶段同时进行。与在施工前已有详细工程设计信息的项目不同，快速推进的项目依赖从业者的主观经验来制定初步资源计划，这往往导致计划无法真实反映项目设计。本文提出一种基于类似模块历史资源数据的数据驱动方法，用于预测模块类别和初步资源需求。该方法采用半监督机器学习技术，根据从低细节层次三维模型中提取的关键设计要素，在微观层面对施工模块进行分类。利用历史数据，该方法汇总每个模块类别的资源需求，从而将初步三维模型与历史资源需求关联起来，在缺乏详细设计信息的情况下增强初步资源规划。值得注意的是，随着更新的设计信息逐步可用，该方法可将其纳入考虑，确保方法输出结果始终保持最新。

1. 引言

初步资源规划对于项目成功至关重要，它为监控、控制和识别风险以及制定纠正措施提供了参考依据[1]。对于许多类型的建筑，随着施工前详细工程设计的逐步完善，通过向关键路径法（CPM）网络中加载任务来实现资源规划、资源均衡和优化[2–5]。相比之下，工业建设项目通常采用快速跟进方式实施，即在施工开始后分阶段发布详细工程设计包。

尽管这种方法缩短了整个项目的工期，但导致了工程与施工阶段的重叠[6]，从而限制了承包商在施工前规划阶段可获得的信息。

在缺乏详细信息的情况下，工业建筑中的初步资源计划依赖于建筑专业人员根据早期可用的项目数据和相关历史数据进行预测项目信息。尽管历史项目数据广泛可用，但它们通常是非集成的、原始的、未经处理的，并且未以能够提供有用见解或作为日常运营（如初步资源规划）输入的方式呈现。相反，从业者通常基于类似的历史项目，为整个项目的每个专业假设一条曲线。由此产生的计划是主观的，往往无法真实反映项目设计。此外，由于这种主观估算与设计无关，因此当获得更多可用信息时，资源计划难以轻松更新。该计划常常过时，既无法用于识别风险，也无法作为质量参考。虽然随着详细工程设计的发布，该计划最终会被基于关键路径法的计划所取代，但此时人员配置问题（即人员过剩或不足）很可能已经出现。然而，目前尚未开发出一种能够在缺乏详细设计信息的情况下创建客观且可更新的资源计划的方法。

工业建设项目通常采用模块化方法进行建设，这为开展初步资源规划提供了机会在模块级别进行资源规划。尽管每个模块都是独特的，且每个特定模块的历史资源需求无法直接转移到新项目中，但历史资源需求为先进的机器学习技术提供了获取有用洞察的机会，从而增强这种传统上主观且耗时的规划实践。

为弥补这一差距，本研究提出了一种数据驱动方法，能够从历史项目信息以及模块化工业建设项目生命周期早期可获得的有限项目数据（详见第2.1节）中提取客观的、以工程为导向且由设计驱动的洞察，用于初步资源规划或其他早期规划决策支持系统。首先，采用无监督学习基于低细节层次三维（3D）模型将模块聚类为若干组；然后，利用历史项目信息确定每个模块簇的关键劳动力资源需求；第三，采用监督学习训练分类器，以预测未来项目的模块组（即模块类别）。通过实际项目数据验证了所提出方法的功能性。结果表明，该方法能够快速将来自低细节层次3D模型的模块分类为模块类别，并预测每个模块类别的资源需求。该方法的应用有望通过降低获取数据驱动决策支持洞察所需的工作量，同时减少与传统经验型决策方法相关的偏差，从而提升工业实践水平。

本文的其余部分组织如下：首先，简要介绍工业模块化以及建筑信息模型（BIM）在初步资源规划过程中的作用。接着，回顾现有关于初步资源规划的研究，指出现有文献中的研究空白，并讨论为何采用机器学习方法适用于解决该问题。研究方法部分详细说明了所提出的框架所涉及的各个阶段、技术及算法。最后，通过一个工业案例研究展示所提出方法的每个阶段及其结果。

2. 研究背景

2.1. 工业模块化

与交通、住宅或商业建设项目相比，工业建筑——这一术语通常用于描述能源供应设施（如石油和天然气、核能以及石化厂）的建设——具有较高的复杂性，并涉及多个专业工种，例如管工、锅炉制造工、电工、铁工和机械安装工，以完成项目[7]。工业建筑的一个独特之处在于实施模块化以及使用来自专业工业供应商的预制构件（例如储罐、容器和翅片风扇）。建筑业协会[8]将模块化定义为“将现场搭建施工大规模地转移至一个或多个本地或远程的制造车间/场地，以利用任何战略优势。”模块是指在尽可能远离最终安装位置的地方完成全部制造、组装和测试的工厂部分。”除了模块之外，大型和专用构件（如预制换热器/压力容器）也会被运送到施工现场，需要进行额外的工作和装配以连接到工厂其余部分。围绕这些预制构件的三维施工区域不仅包括该构件的最终配置，还包括周边区域内的管道、钢结构、电气及其他工作。在本研究中，“模块”一词包含模块化工作和预制构件区域。

在模块化工业建造中，模块尺寸（即模块包络）通常被定义为满足运输限制[8]。因此，每个模块在项目内部和项目之间都是独特的。尽管模块的尺寸和工作范围各不相同，但它们通常具有相似的主要特征，例如主要包含管道的模块被称为管架模块，或主要由设备组成的模块被称为设备模块。示意图0 管道弯头和(b)典型管道架模块的三维模型。)

虽然这种主观分类可以在宏观层面捕捉设计信息（即特定类型模块所涉及主要专业的主要设计特征），但初步资源规划需要在微观层面解析设计特征。例如，管工的工作范围在预制橇装模块和设备模块之间可能相似，而机械安装工的工作范围则可能存在显著差异。

2.2. 建筑信息模型

信息技术的行业范围内的采用显著增加了项目生命周期中生成和收集的数据量[9]。得益于这些数据，建筑业正从以工艺为导向的文化转变为基于科学的学科，并越来越多地将数据驱动解决方案应用于各项施工管理功能[10]。

建筑信息模型作为一种信息技术，已在工业建筑领域广泛应用，以辅助项目设计和实施[11,12]。理想情况下，建筑信息模型是“设施的物理和功能特性的数字表示，以及有关该设施的信息共享知识资源，为设施全生命周期中的决策提供可靠依据”[13]。尽管详细形式的建筑信息模型具有诸多益处，但总承包商通常收到的是不完整、简略且过时的建筑信息模型[14]，原因在于：（1）建筑信息模型未被视为合同交付成果[15—19]，（2）缺乏行业标准，导致利益相关者之间在数据传输和合并过程中出现信息丢失、不一致、互操作性问题和冗余[20,21]；以及（3）利益相关者之间缺乏承诺与协作，无法共同开发完全功能化的建筑信息模型，从而导致数据不完整、不一致且不可靠[22—24]。

在工业建筑中，承包商收到的建筑信息模型通常是结构物理表示的粗略三维近似。它通常缺少关键施工细节和其他功能特性[15,25]。工业项目的建筑信息模型的细节等级（LOD）通常处于近似几何体（LOD 200）或某个层次根据专业（以下统称为专业或工种）的不同，介于概念化（LOD 100）与精确几何（LOD 300）之间[26,27]。尽管这些模型的细节层次适用于概念设计和工程阶段，但不足以支持施工管理活动。如图1a所示，所指出的弯头属性要么缺失，要么无意义。在快速推进方法中，建筑信息模型（BIM）是在施工进行的同时开发的。承包商会定期收到更新后的BIM模型，新的详细内容会随着时间推移逐步替换原有的占位符[28]。

在本研究中，低等级细节建筑信息模型与3D模型可互换使用。

依赖质量较低、LOD较低且定期更新的3D模型来改进工业建造过程具有挑战性[12,29]。然而，即使LOD较低，3D模型通过其对结构的物理表示（如位置坐标、管道长度和楼梯数量）天然地包含空间信息，这为机器学习算法在微观层面提取设计特征提供了机会。事实上，已有一些实际解决方案用于从低LOD模型中提取有意义的信息已被提出[21]。例如，韩及其同事开发了一种附加到Navisworks的定制化应用程序接口，用于提取任意构件的粗略坐标[30]（图1a）。

在快速跟进的模块化工业建设项目中，项目信息（包括模块清单和吊装计划或重型吊装计划）会在项目生命周期的早期阶段即可获得。有了这些数据，便可从3D模型中提取初步设计信息，并按各专业在模块级别进行分类。随后，针对特定类型模块化设计所掌握的劳动力资源需求可加载到里程碑进度计划中，以生成初步资源计划。

3. 文献综述

3.1. 文献中的初步资源规划

施工前规划中的一个关键活动——初步劳动力计划——用于确定项目的劳动力资源需求，分析劳动力来源、供应充足性以及解决潜在的资源问题[31]。尽管先前的研究已证实初步资源规划的诸多益处—包括降低成本、提升运营绩效、减少进度、成本和范围方面的变异性，以及提高项目成功的可能性[32–37]—但上述研究是从施工前规划（或前端规划）的角度来探讨该问题，涉及许多超出初步资源规划范畴的活动。此外，这些研究多为基于调查、定性或基于指数的方法（例如使用项目定义评级指数（PDRI）[38–40]）。

虽然定性和基于指数的分析能够识别潜在风险，并制定针对项目的策略和目标以提升项目成功概率[32–34]，但他们无法提供一种能够为初步资源规划提供定量决策支持的方法论。

现有的资源计划研究主要集中在给定特定约束条件下，通过精细调整资源分配来优化项目管理目标[2–5,41]。因此，在建筑文献中，从有限的工程信息出发推导工业建筑的初步资源计划仍相对缺乏探索。这一施工前规划工作—传统上由高级项目经理执行—由于时间不足，往往缺乏一致性、存在偏见或执行不充分[42]。有必要开发定量方法以支持或增强初步资源规划。

3.2. 机器学习在建筑管理中的应用

使用机器学习算法开发的数据驱动应用已广泛应用于建筑管理中，以发现隐藏在大量原始（即不完整、混乱且非集成的）数据集中的模式和关系[43–50]。在建筑领域中，已采用两种类型的机器学习算法，即无监督学习和监督学习。聚类作为一种无监督学习，旨在发现未知但“自然的”对象分组[51,52]。分类作为一种监督学习，通过学习已被划分为若干组（也称为类别）的给定数据集的结构和内容，生成一个模型（即分类器），该模型可利用已知的预测特征为未见过的数据集预测类别标签[53]。介于监督学习与无监督学习之间的半监督学习[54]，通过利用未标记数据中的信息来提高监督学习的准确性。为了构建预测模型，半监督学习算法已成功应用于求解输入为完全或部分未标记的大规模数据集的问题[55]。

本研究采用了一种半监督学习方法主要有三个原因。首先，3D模型包含大量未标记设计数据，手动标注这些数据不切实际且容易引入偏差。此外，每个专业各模块的底层数据结构尚不明确。因此，在采用无监督学习方法时，可以在微观层面学习各专业模块之间的设计相似性（即关键设计要素的数量汇总）。其次，建筑信息模型（BIM）数据（即概念设计阶段产生的低LOD 3D模型）通常在施工前规划阶段即可获得，早于工程包的定期发布。通过有监督学习算法，可根据最新的BIM发布结果训练分类器，以预测模块类别（即已验证聚类）。第三，资源需求随设计而定，设计越复杂，所需的工时越多。基于已验证的聚类结果，可针对各专业的每个模块簇汇总其资源需求。结合分类器，该方法可生成数据驱动的资源参考，用于增强初步资源规划，并能随着新3D模型的引入而持续更新。

4. 方法论

为开发所提出的数据驱动的初步资源规划工具，需要三个关键的历史数据源：低等级细节建筑信息模型或三维模型、模块化信息（例如，包含模块尺寸的模块列表）以及劳动力资源数据（例如，建筑进度监测数据库或企业资源计划数据库）。所提出的框架如示意图1 所示，包括四个主要阶段：数据预处理、无监督学习、资源规划指标的统计摘要以及监督学习。这些阶段将生成最终的决策支持工具—一种提供初步资源规划输入的数据驱动方法。每个阶段将在以下小节中进一步讨论。

所提出的框架旨在实现动态施工数据的集成。一旦利用现有的历史数据完成训练，该初步资源规划工具即可在施工前规划阶段应用于未来项目，如示意图2 所示。低LOD三维模型和模块化信息被输入到模型中，输出为模块类别及每个模块类别的相关资源需求预测。由于许多工业建设项目采用快速推进方法，在施工开始后，工程部门仍会持续定期提供3D模型和模块化信息。更新内容可能包括在特定模块内新增构件、模块尺寸变更或其他类似修改。因此，可重新应用该工具，以确保输出结果与最新的工程信息保持一致。

4.1. 数据预处理

为了访问所需数据，在数据存储于不同数据库的情况下，可以开发一个数据适配器，将相关数据检索并汇集到中央存储库中，以便在不影响原始数据集的情况下对数据进行清洗和分析。

尽管某些算法可以应用于噪声和不一致的数据[56]，但数据整理对于确保大多数机器学习算法得出稳健可靠的结果至关重要。因此，在数据收集之后，可能仍需进行大量的数据整理任务，以进一步链接和重塑数据为整洁格式（其中每个变量为一列，每次观测为一行）[57]。这一点对于工业建筑数据尤其重要，因为这些数据通常由不同的组织或利益相关者生成和拥有，导致数据库结构或命名规范存在显著差异。例如，设计数据（如建筑信息模型）通常由工程团队生成，模块相关数据由模块组装设施提供，而预算、进度和模块吊装计划则由承包商创建。数据库结构和命名规范的不兼容差异阻碍了这些数据的自由链接或合并。可能需要一系列手动和自动的数据整理步骤，包括过滤、子集划分以及公共关键属性的识别[58–60]，来对数据进行预处理。

4.2. 实时整洁数据

需要两个整洁表格作为输入，用于所提出方法的后续步骤。其中一个表格以矩阵形式按模块和专业汇总来自低LOD 3D模型的关键设计要素。值得注意的是，这些关键设计要素存在于所有工业项目中，从而将未来项目与历史信息联系起来。例如，管道专业的关键设计要素可能包括支持、焊接、弯头、减压器、阀门、帽、封盖、耦合、盲板、法兰、垫片、仪器、三通、管子和标高。另一个表格按模块和专业对每周预算人工工时进行分组。随后将这些数据绘制成资源图表以实现可视化。在合并和可视化过程中，数据会进一步被检查和清理。异常值指无法映射到模块包络的任何资源数据，将被识别并剔除。

4.3. 无监督学习

聚类作为无监督学习的一种形式，随后在设计矩阵上进行。聚类结果基于每个专业的模块的关键设计特征，识别模块之间的相似性（或相异性）。可以通过多种方法分析和验证聚类结果，在缺乏类别信息的情况下评估所生成簇的优劣[61]。这些方法包括但不限于：多元方差分析（MANOVA），用于检验聚类结果与变量之间的相关性；主成分分析（PCA），通过降低数据集维度，使得聚类结果能够在以前两个主成分（PCs）构成的坐标系上进行可视化；利用专家的外部知识[61]；以及/或者使用内部数据指标，例如贝叶斯信息准则[62]，来度量不同数据点之间的相似性[63–65]。

4.4. 汇总资源规划指标

在聚类之后，针对模块级别每个专业的资源计划提出了四个关键的资源规划指标：总预算工时、工期、爬坡率和下降率。然后，从每个模块簇每周的预算工时表中，确定各指标的统计摘要，包括最小值、第一四分位数、中位数、第三四分位数和最大值。所得的摘要展示了每个模块类别的典型资源需求，从而将初步资源计划与结构的实际设计联系起来。

4.5. 监督学习

在确定聚类结果（即类别）后，为每个专业开发一个分类器。该分类器能够基于未来项目的低LOD 3D模型预测模块类别，从而将未来项目的资源规划与已完工项目中相似设计的模块的历史资源需求关联起来。

监督学习遵循示意图3 中描述的迭代过程。首先应用特征选择（如Boruta特征选择和自动特征选择（fscaret[66]）），以分析关联程度、降低属性维度并提高分类成功率[67,68]。尽管从业者可选择任何可用的监督学习算法，本研究推荐使用表1中详述的算法，因为（1）它们各自代表Kotsiantis总结的一种主要技术类型，[67]，（2）它们在建筑管理中广泛应用，[46]，且（3）已被证明在建模复杂关系方面具有实用性[67]。

4.6. 决策支持：数据驱动的初步资源规划的输入

分类器集合（即每个专业一个分类器）的开发将未来项目设计与其从历史项目中学习到的预测资源需求联系起来。该框架根据示意图4 和示意图5 所述，为初步资源规划提供数据驱动的洞察。具体而言，初步资源规划工具包括以下七个步骤：

对于新项目，从三维模型中识别出关键设计要素（作为矩阵的列标题），并为每个专业单独创建一个矩阵。
针对每个模块（作为矩阵的行）的每项关键设计要素，提取并确定其度量数值（根据该构件的计量单位），并按专业进行整理。
将步骤2中的矩阵输入到对应专业的分类器中，以预测该专业的模块类别。
根据预测的模块类别，从历史项目数据中查找对应的资源需求汇总（即4个指标）。
对所有专业重复步骤1–4。
相关资源指标随后可作为初步资源规划的输入。
在收到更新后的三维模型后，可重复步骤1–6以修订输出结果。

对于数据不足的专业，可采用基于相关专业的百分比方法进行估算和规划。百分比方法将某一类劳动力资源估算为另一类资源预估劳动力的一定百分比。最常见的是使用百分比方法来估算间接劳动力资源。例如，三维模型中通常缺乏隔热设计信息，因此可根据管道数据的一定百分比来估算隔热工作的资源需求和工期。启动阶段和收尾阶段速率也可以假定遵循管道数据的形状。

分类算法	Type
人工神经网络（ANN）	基于感知器的技术
朴素贝叶斯	统计学习算法
K‐最近邻（KNN）	基于实例的学习
支持向量机（SVM）	支持向量机
随机森林	决策树
# 用于增强工业建筑初步资源规划的智能数据驱动方法

5. 案例研究

所提出的科研框架的功能通过将其应用于两个真实的工业建设项目来展示——一个工期超过两年的历史项目，以及另一个目前处于施工前规划阶段的第二项目。这两个项目均属于同一项目类别：位于加拿大阿尔伯塔省北部的典型油砂二次开采项目。此类项目占我们工业合作伙伴业务组合的很大一部分。历史项目被用于构建本研究中提出的初步资源规划工具。所开发的工具（即分类器和一组汇总的历史资源指标）被应用于第二个正在进行的项目，以验证所提出的框架。在此案例研究中，R（一种用于统计计算和图形的免费编程软件环境）被用来执行所提出方法论的全部功能。

5.1. 数据来源

在历史项目中，所需数据存储于三个独立的数据库中：建筑信息模型（BIM）、模块吊装计划和进度数据库。建筑信息模型（BIM）由工程团队生成；进度数据库由总承包商内部开发，作为关系型数据库，记录了工作分解结构和项目进度（每周实现的预算工时）；模块吊装计划则由总承包商与模块组装设施共同开发。在此案例研究中，按模块汇总人工工时的一个实际挑战源于三维模型（即低等级细节建筑信息模型）与预算信息的分离，因为这两类信息存储在两个不同的数据库中，且无直接关联。建筑信息模型（BIM）包含所有设计元素的空间信息，可根据模块吊装计划定义的边界轻松将设计元素按模块进行分组。然而，进度数据库遵循传统的工作分解结构，旨在最有效地执行和跟踪现场施工活动，每个工作包通常包含一个班组1–2周的工时。这种树状结构将工作范围分解为施工区域、专业、工作包、活动和步骤，并未遵循模块的物理分解。这使得难以确定模块级别每周已实现的预算工时，而这是应用该框架所必需的。将数据整理为所需格式的具体步骤详见第5.2节。

5.2. 数据预处理

开发了一个数据适配器，使用R语言并通过RODBC[70]包，用于从所需数据库中检索和收集有用信息，并将其集中存储到一个集中位置，以便进一步处理。值得注意的是，该数据适配器可在未来项目中用于以实时方式连接到目标数据库。从进度数据库查询得到的周进度表（图4）包含以下信息：专业、工作包、进度活动以及每项活动每周记录的已挣劳动力工时。从BIM数据库提取的构件列表表（图4）包含：(1) 每个构件（几何层级中的最小建模项）的坐标；(2) 构件名称，该名称为一个长字符串，包含大多数与设计相关的信息（例如，“SUPPORT 12 of BRANCH/BFW-41039-01-00M56/B1”）；以及 (3) 专业。此外，还从模块吊装计划数据库（图4）中提取了包含模块名称、项目ID和空间坐标的模块列表。

尽管通过数据适配器已将来自不同数据库的数据收集到中心位置，但仍需进一步努力来整合数据（如图4所示），并将信息聚合为整洁格式，其中一个矩阵按模块汇总每个专业的关键设计，一个表格按模块和专业汇总周预算人工工时。

为了将每周实现的预算工时与模块级别关联起来，创建了一个间接通道。首先，通过将每个构件的坐标与模块的坐标进行比较，使用自定义开发的 R 函数 detecte3Dr[60] 生成了模块清单与构件之间的多对多关系。其次，在进度表与构件列表之间建立了一对多关系（详见 [58]）。该过程首先手动解析两个表中的数据和模式：（1）大多数（4766 条记录中的 3709 条）管道施工进度活动以 “ISO-MCP-##-.”开头；（2）此模式后直接跟随一个由字母、数字和符号组成的序列识别码，例如 “PW-40005-01-01A03.”；（3）管道序列识别码（例如 “PW-40005-01-01A03”）在组件名称列。数据预处理该步骤是研究团队与我们的工业合作伙伴共同参与的联合工作，包含多轮人工验证，以确保获得准确且最优的结果。任何无法与BIM元素建立关联的进度活动均被剔除，因为缺乏位置信息的活动无法在模块级别进行汇总。在本案例研究中，做出了以下假设：（1）总人工时根据分配到各模块的活动人工时比例进行缩放；（2）工期、爬坡率和下降率被视为不受影响。表2列出了主要专业在数据整合步骤中的结果。由于篇幅限制，此处仅展示管道专业的情况。然而，所提出的框架可推广至任何具有足够数据的专业。这是本研究的关键贡献之一，因为一个模块在不同专业下可能属于不同的簇/类别。因此，所提出的方法论能够针对每个专业的具体设计定制其资源需求。

专业	分配给的活动数量模块/总数活动	活动的工时分配给模块/总计工时
电气	2272/11,765	11,765/268,808
管道	3629/4766	307,727/368,517
机械	167/358	61,207/99,781

示意图6

5.3. 层次聚类

为聚类实验做准备，列出关键设计从构件列表表的构件名称列中提取了构件（例如帽、封盖、耦合、弯头、盲板、法兰、垫片、仪表、减压器、支持、三通、管子、阀门和焊接）。每个模块中各设计元件的数量被汇总成一个矩阵。该矩阵连同模块的标高和体积，作为聚类过程的输入。

在进行标准化和计算欧几里得距离之后，将层次聚类算法应用于输入矩阵。在本案例研究中选择了层次聚类作为k‐均值聚类的替代方法，原因如下：（1）与k‐均值聚类相比，它不需要预先确定簇的数量；（2）它生成数据的树状结构表示，称为树状图；（3）通过用户定义的特定层级进行水平切割，可以从树状图中定义一个划分。使用ward法计算簇之间的相似性，因为它对噪声或异常值的敏感性较低。聚类结果以树状图的形式呈现（图5b）—一种记录合并序列的树状结构图。

为了辅助选择最佳簇数量，采用了弯头、轮廓和间隙统计量方法，以进一步了解数据集中的自然分离情况。如图6a所示，当最大簇数设置为12，在1到12个簇之间未观察到明显的“弯头”（弯曲位置，表示最优簇数的指标）；轮廓系数法（图6b）建议分为2个集群；而间隙统计量法建议分为12个集群。间隙统计量法和弯头法均认为更多的集群能更好地描述数据。最终，本案例研究选择了10个集群。

5.3.1. 聚类验证Goodness of fit of t

聚类结果通过主成分分析成分进行可视化检查（图5a），使用多变量方差分析进行检验，并由领域专家验证。主成分分析的结果（图7b）表明，主成分1解释了数据集中一半的变异性，与主成分2一起共解释了约60%的变异性。主成分1和主成分2列于表3中。这些变量的重要性及其可转移性均得到了领域专家的确认。此外，在降维后，聚类结果通过前两个主成分在坐标系中进行了绘制（图5a）。多变量方差分析结果显示变量与聚类结果之间存在强相关性（p= 2.2e‐16）。

除了通过绘制主成分分析成分的聚类结果并使用多变量方差分析进行检验来直观评估其优劣外，还由两位具有丰富工业建筑经验的专家对聚类结果进行了审查和验证。这两位专家均深度参与了该案例研究项目，其中一位在施工现场担任技术经理，另一位在规划与施工阶段担任工程经理，从而确保所选专家具备充分的项目特定经验和行业广泛知识。聚类结果（即属于每个框架生成的集群的构件列表（“C1, C2, C7…”））被发送给专家。专家为每个框架生成的集群中的构件分配了唯一的颜色，并将带有颜色标记的三维项目模型可视化，如图8所示。专家结合着色后的三维模型和聚类列表进行审查，确认了聚类结果的准确性和有效性：每个通过框架生成的集群均由功能性的、连贯的和实际的构件分组构成，并可为其分配一个实用标签（如表4中所示）。专家能够为这些构件分组分配在实践中常见且通用的标签（见表4的第三列），展示了每个分组的连贯性，从而验证了聚类结果。

示意图7 前两个主成分上的散点图和(b)树状图形式展示。)

示意图8

示意图9

变量	维度1	维度2
支持	− 0.56534964	0.54563616
Cap	− 0.25437030	− 0.01077317
封盖	− 0.92128752	0.17368284
耦合	− 0.11905659	− 0.34326606
弯头	− 0.93707405	0.11514630
盲板	− 0.70040622	− 0.47648018
法兰	− 0.89283250	− 0.34122829
垫片	− 0.79666917	− 0.45656659
仪器	− 0.80775226	− 0.06803716
Pipe	− 0.18886362	− 0.43751021
减压器	− 0.88487411	0.06161355
Tee	− 0.95011295	0.03763915
Tube	− 0.94960111	0.20747611
阀门	− 0.88832130	− 0.27574617
Weld	0.77716886	0.33820471
Zmin	− 0.07467491	0.64623365
Zmax	− 0.33627260	0.44160975
体积	− 0.49730417	0.21109567

示意图10

集群图8	图例	专家验证
C1	模块——主要是电缆桥架，少量管道
C2	管廊模块和/或其子结构，少量管道，地面层
C3	管道较少的较大区域或建筑物
C4	管架模块——高密度管道
C5	管道较少的设备区域
C6	大型储罐区域
C7	预制撬装设备
C8	设备模块
C9	翅片风机冷却器
C10	带管道的设备区域

5.4. 资源规划指标概述

针对以下四个指标：每个集群的总预算工时、工期、爬坡率和下降率，收集了统计摘要。图9a展示了一个随机选择的资源图。值得注意的是，该资源图可以从这四个资源指数中复现。为了表示爬坡率和下降率，每个资源图均通过四参数广义贝塔分布进行拟合。由于其灵活性，广义贝塔分布在建筑领域被广泛用于表示各种变量，包括资源、工期、成本、进度和风险[71–77]。广义贝塔分布的形状参数代表资源图的形状（图9b）。结合总工时和工期，这四个资源指数在表5 和图10中对每个模块簇进行了汇总。

在资源摘要中观察到了一些趋势。首先，某些模块簇/类别在资源需求方面具有更高的优先级。例如，集群4（C4）的工时多于其他集群。C4的平均总人工时超过其他任何集群平均值的两倍，而大多数集群的平均工期（周）在35至45周之间，包括C4。其次，各集群在爬坡和下降趋势上存在差异。例如，C1、C2和C10具有相似的爬坡率和下降率（形状参数a和b的数值相近），表明其资源图表呈现出较为对称的形状。对于C4，形状参数a大于形状参数b，表明其爬坡较慢但下降速率更陡峭；而在C3、C7、C8和C9中，则观察到更快的爬坡率但较慢的下降率。综上所述，不同的设计导致了不同的资源需求，通过对历史项目数据的分析可以观察到关键的资源趋势。

在某些簇的资源指数统计摘要中观察到较大差异，例如C4的总人工时。结果（表5 和图10）经行业专家审查。考虑到工业建设项目的特性，模块极为复杂且难以标准化，C4等簇即为此类情况的例证。尽管该簇内的所有模块均被视为具有较高管道工程密度的管架模块，但不同的模块尺寸、模块化百分比和管径可能导致所需工作范围出现较大差异。专家确认了结果的有效性以及所获得的洞察对未来项目的可转移性。模块组件数量和指标有助于系统判断应在历史数据的较高值或较低值一侧进行预测。未来的工作可包括研究其他指标以进一步优化预测。

示意图11 工时和 (b) 随机密度的源图表选定的模块)

资源指数	C1	C2	C3	C4	C5	C6	C7	C8	C9	C10
总工时	Min 19	37	228	2550	55	250	303	101	65	811
	Q1 262	182	1091	3589	396	371	558	179	106	1293
	Med 465	423	1245	4079	554	1120	1094	189	191	1663
	Q3 616	910	1716	4528	1084	1867	1891	195	350	2267
	Max 2058	3999	2536	10,196	2796	2909	3665	217	612	2275
持续周数	Min 17	10	30	24	16	12	10	15	25	22
	Q1 30.5	21	38.75	36.5	23.5	24.5	25.5	17	31	30
	Med 42.5	33	42	51	35.5	33	34.5	20	34	42
	Q3 48.75	48.5	68	62.5	41.75	42	44.25	20	35	46
	Max 70	68	73	72	50	55	58	20	35	64
形状参数a	Min 0.07	0.40	0.64	0.55	0.14	0.32	0.50	0.17	0.08	0.76
	Q1 0.71	0.97	1.15	2.22	0.39	0.64	0.84	0.50	0.45	1.21
	Med 0.99	1.25	1.46	3.20	1.31	1.15	2.14	2.09	0.67	2.12
	Q3 1.81	1.98	2.17	4.37	5.13	3.83	3.06	3.09	0.80	2.88
	Max 5.41	5.47	5.90	10.00	9.17	11.16	6.47	4.05	0.92	6.00
形状参数b	Min 0.05	0.22	1.24	1.17	0.04	0.67	0.94	0.30	0.39	1.16
	Q1 0.89	1.24	2.23	1.97	0.97	1.49	1.92	2.22	0.61	1.46
	Med 1.30	1.70	2.38	2.71	2.26	2.11	2.60	3.87	2.32	1.82
	Q3 2.19	3.10	2.85	2.88	3.42	3.76	3.44	6.07	4.05	2.27
	Max 6.85	11.94	4.63	8.49	5.41	6.58	5.62	7.35	4.31	4.01

示意图12 和 > Q3+ 1.5(Q3 − Q1) 未显示。)

5.5. 分类

在汇总资源计划指数并观察趋势后，为管道专业构建了一个分类器，用于预测未来项目的模块类型。借助该分类器，从业者可根据设计元素有效地对模块进行分类。一旦完成分类，便可参考相关的历史资源指数（表5）并用于未来的资源规划。

特征选择显著降低了维度，通过移除与目标概念无关或冗余的变量来减少计算工作量[67,78]。此外，它还能解释数据相对于目标结果的结构，帮助从业者更深入地了解数据集。在此案例研究中，应用了 Boruta算法、基于fscaret[66]的自动特征选择（caret R包[79] ）建模方法以及皮尔逊相关系数。经过15次迭代后，Boruta算法确认所有变量均为重要变量（图11）。如图所示，所有真实特征（绿色）的重要性均高于其对应影子特征中的最佳值（“影子最大值”）。这些结果与使用 fscaret得到的结果一致（图12），其中变量根据表1列出的每种算法训练出的模型进行了排序。五个排序变量列表中没有一致的最重要或最不重要变量。为了可视化结果，为五个排序变量列表中的每个变量分配了一个顺序索引（1表示最重要变量，18表示最不重要变量）。然后将每个变量的顺序索引之和绘制成饼图。如果某个变量在全部5个列表中始终被排为最重要，则其顺序索引之和将小于0.1%；相反，如果某个变量在全部5个列表中始终被排为最不重要，则其顺序索引之和将大于10%。

使用所有变量和类别标签（即专家验证的聚类），通过10折交叉验证法开发了分类器。在此过程中，每次交叉验证重复10次，共进行10次，每次将1个子样本保留作为验证数据以测试模型，9个子样本用作训练数据。然后将10个错误率取平均值得到平均准确率，并选择准确性最高的模型。每种分类算法的平均准确率如表6所示。由于其性能表现，本案例研究选择了KNN模型；所选模型的混淆矩阵如图13所示。

示意图13

示意图14

分类算法	准确性（平均值）
人工神经网络（ANN）	0.8941
朴素贝叶斯	0.9076
K‐最近邻（KNN）	0.9603
支持向量机（SVM）	0.9139
随机森林	0.8694

5.6. 验证

所开发的初步资源规划框架使用来自当前处于施工前规划阶段的第二个项目的资料进行了验证。在验证时，仅可获得管道的总预算工时（即工期、上升速率和下降速率的数据不可用于验证）。因此，只能使用具有足够管道工时的模块来验证该方法。

在第二个项目的70个模块中，有42个模块具有足够的管道人工工时用于验证（即超过20工时）。所选的KNN分类器被应用于这42个模块。

在为每个模块预测出类别后，根据第5.4节中的汇总历史数据得出的总预算工时预测（表5）被分配给各个模块。图14展示了采用提出的方法得到的预测结果与实际总工时的对比。图14中的散点代表实际各模块的预算总工时，箱线图表示从历史项目数据中收集的统计摘要（即图10）。

所提出的方法对第二个未见项目数据的工时进行了合理准确性的预测。超过90%的实际数据点落在预测范围内，仅有4个点位于预测范围之外（图14，红色圆圈）。行业合作伙伴认为，所提出的框架达到的准确性水平已满足实际应用的要求。基于不完整的设计和工程信息，90%的准确性能够为从业者提供可靠的劳动力资源需求参考，并充分识别潜在劳动力短缺和风险的信息。文献中的研究结果支持了90%的准确性处于可接受范围内的结论。尽管在初步资源规划领域尚未报道类似设计的研究，但机器学习技术已被广泛应用于建筑管理的多个方面，这些研究的预测准确率通常在60%至99%之间。这部分研究的子集已在补充数据的表S1中进行了总结。

5.7. 概要

该案例研究表明，所提出的方法能够成功地从一个大型、未标记且非集成的工业建设项目历史数据集中解析、提取并学习关键的资源规划信息。通过数据适配器访问多维数据源，随后进行预处理，生成整洁表格以供多种机器学习算法输入。接着进行无监督学习和参数空间分析，基于关键模块设计要素揭示了数据集的自然划分。根据专家验证的聚类结果，资源需求被统计归纳为四个指标。最后，构建了一个能够预测未来项目模块类型的分类器。

尽管存在观察到的变异性，所提出的方法减少了审查模块、识别其关键特征、参考历史资源需求以及确定与新项目相关的差异、风险和不确定性所需的工作量和时间，从而支持初步资源规划决策。与完全主观且仅为每个劳动力生成一条劳动力曲线的当前做法相比，所提出的方法通过以下方式改进了实践：（1）利用历史数据；（2）将一个项目的大规模工作范围分解为更小的构件（即模块）；（3）在模块级别上有效连接未来项目与历史数据，以促进数据驱动的初步资源计划的制定。

该方法的稳健性通过以下三个方面得以验证：（1）所提出的机器学习的所有阶段方法得到了验证：聚类结果通过外部知识进行了验证，分类过程采用了10折交叉验证方法；（2）初步资源规划框架通过一个处于规划阶段的第二项目进行了验证；（3）所提出的初步资源规划框架的案例研究结果由专家进行了验证。

该分类器与资源汇总一起，可作为未来项目的重要决策支持工具。当新项目的建筑信息模型（BIM）发布后，设计元素可被快速汇总并输入至分类器。一旦预测出模块类别，相关的资源需求即可用于规划。所提出的框架还为纳入潜在的初步间接工时规划奠定了坚实基础[80,81]。此外，同样重要的是，提出的方法的输出结果可用作其他数据驱动规划工具的输入，例如用于高级决策支持的优化和模拟[82–85]，以实现更先进的决策支持。

6. 贡献与未来工作

本研究提出了一种框架，旨在改善工业建筑及其他快速推进项目在早期缺乏详细工程设计信息情况下的初步资源规划。该方法使从业者能够通过无监督学习从历史数据中提取客观且可量化的信息，并进一步应用监督学习，将这些信息用作未来规划的预测模型。在一个包含两个真实工业建设项目案例研究中的结果表明，资源规划指标与分类器相结合，可为未来项目的高层级资源规划提供关键的决策支持。此外，从历史项目中获得的洞察还可作为其他数据驱动优化和/或模拟应用的输入，以增强日常运营。值得注意的是，本研究展示了半监督学习如何有效解析大量未标记的原始建筑数据，同时生成有意义的分类器，并减少对原始数据进行人工标注的需求。

这项研究通过成为首个方法，推动了该领域的前沿发展能够为决策者在工程尚未完成的模块化工业建设项目中进行初步资源规划提供一种以工程为导向的方法和数据驱动的洞察。案例研究中发现某些模块类别所需资源存在较大差异，反映了工业建设项目的复杂性，以及通过学习历史经验来持续改进未来初步规划的必要性。与当前做法——直到详细工程设计完成才进行适当规划，或直接借用以往项目的资源图——相比，该方法显著提高了历史项目数据在后续项目初步资源规划中的利用率。具体而言，所提出的方法：（1）基于新项目的低LOD 3D模型预测模块类别，从而为从业者提供关于模块之间关键设计相似性的洞察；（2）参考历史资源需求，并从过往项目数据中汇总每个模块类别的资源需求；（3）允许手动调整所得参考指标，作为未来模拟和/或优化的输入。

用于改进定量施工前规划的应用，例如通过多模式模拟和优化进行调度[86]。通过案例研究，本研究证明了以下几点：（1）无论数据来源如何，均可通过数据适配器轻松且实时地访问各类建筑数据；（2）可通过多种机器学习算法从不完整的BIM数据中学习到有价值的信息，为初步资源规划提供关键的决策支持；（3）无监督学习能够有效处理大量建筑数据，并基于设计元素提供关键洞察，例如自然聚类分离；（4）在无监督学习结果的基础上，监督学习可进一步提升数据解决方案，为未来项目提供决策支持系统；（5）半监督学习显著减少了与手动数据标注相关的劳动密集型过程，从而提高了处理大量未标记数据的效率。

尽管使用实际项目的数据展示了所提出方法的优势，但该方法并不局限于任何特定的组织或数据结构。数据适配器、无监督学习和监督学习的实施将大大减少总承包商在机器学习中的手动工作量，从而鼓励利用历史建筑数据为未来的决策提供支持。

鉴于这些贡献，本研究应考虑以下局限性。首先，特征选择仅在监督学习阶段进行，以减少与类别无关或冗余的特征。为了提供尽可能多的相关信息，在无监督学习阶段未进行特征选择。其次，在案例研究中，专家对无监督学习结果进行了审查和验证。尽管使用专家知识来验证无监督学习结果确保了机器学习结果的合理性，但不可避免地引入了一定程度的主观偏差。第三，由于第二个项目的数据不足，所开发的决策支持解决方案仅能应用于四个指标中的一个（总预算工时）。第四，由于数据限制，任何无法映射到BIM元素的资源数据均被视为异常值并被移除。未来应考虑改进数据质量的相关工作。