可持续复合材料制造的监督学习辅助模型
1. 引言
在材料技术领域,过去十年中聚合物复合材料的应用呈指数级增长。与传统材料(金属和非金属)相比,复合材料具有高的强度重量比和适应性,能实现设计灵活性,从而生产出节能且可持续的产品。聚合物基复合材料(PMCs)是两种或更多种在物理和化学性质上不同的材料的组合,相较于基础材料,其性能得到了增强。PMCs的一些突出特性包括高强度、低密度、高耐腐蚀性、易加工、尺寸稳定性、耐久性和较低的热导率。这些多功能、可定制的特性使PMCs在航空航天、海洋、汽车、微电子、土木、医疗保健等多个行业的材料市场中占据了一席之地。
由于对环境可持续材料的关注和认识不断提高,研究人员已将研究兴趣转向环保且可生物降解的可持续复合材料。与传统复合材料不同,生物复合材料使用天然纤维、树脂和油合成,有助于促进可持续生态系统。研究人员正在广泛研究天然纤维增强聚合物复合材料(NFRPCs),将其作为航空航天和汽车领域的环保替代品,它还具有重量轻、成本低和抗冲击性能好等优点。一些研究表明,NFRPCs(主要是木纤维、麻纤维和竹纤维复合材料)具有碳储存潜力,这表明它们对减少碳足迹有一定贡献。
然而,NFRPCs也存在一些局限性,如低耐水性、高湿度敏感性、易燃性和低熔点。有时,所选天然纤维与聚合物不相容,在这种情况下,可对纤维进行化学预处理,或在聚合物中共混增容剂以提高界面强度,因为界面粘结不良会导致试样的机械性能较差。复合材料加工过程涉及高度复杂性,因为有多种因素会影响复合材料的特性。其中一个重要因素是天然纤维的特性,即使是同一类型的纤维,其特性也不一致,而是取决于地理和气候条件。其他因素包括制造工艺、树脂特性、纤维特性(形状、长径比、取向)、化学成分和添加剂等。
全球公司现在正采用专注于利用可持续资源的材料和生产工艺的制造实践,同时尽量减少环境足迹。这涉及到材料、成分、加工及其相互作用的适当选择,以在产品开发过程中实现所需的属性,从而形成复杂的结构。对于设计师来说,参考关于可持续材料的新兴文献或进行反复试验会浪费时间和资源。复合材料需求的增加和系统复杂性要求对其在不同条件下的行为进行详尽研究。大多数现代组织寻求既适用又经济实惠的材料和工艺,同时满足多个相互冲突的目标。在研究这些材料的更广泛用途时,关键是避免仅关注少数几个工艺变量而将聚合物复合材料局限于特定目标,而应同时考虑所有工艺变量进行优化,这将极大地拓展材料设计领域。这就需要利用计算智能进行优化,并基于提取信息的数据分析构建高精度的预测工具。机器学习(ML)在材料科学中的应用已被证明是一种超越传统计算方法能力的可靠且可持续的技术。
ML是人工智能的一个分支,它使用统计和概率技术,通过从实验结果中学习来确定可行的解决方案。它通过评估输入数据来确定隐藏模式,这一过程称为模型训练,并基于这些模式对新数据进行预测。研究人员通过各种研究证明,ML是实现可调多功能特性的新型材料建模的有前途的工具。制造公司正在采用与可持续发展目标12(可持续消费和生产)相一致的可持续实践,以在竞争激烈的市场中立足并应对生态挑战。ML通过自动化、优化材料和工艺选择、预测性维护以及缩短生产周期时间,促进了具有成本效益的产品制造,同时保持了交付产品的高质量。这有助于减少原本用于实验的成本和时间。ML通过发现各种制造工艺变量之间潜在的非线性复杂关系,克服了传统统计方法在决策方面的局限性。一项研究概述了机器学习算法在PMCs每个制造阶段的重要性,从材料和工艺的选择、样品表征、工艺参数优化到最终用户应用,它在多个阶段都有应用,以制造出有效的产品。ML算法的选择取决于问题类型和可用的数据集。用于研究新兴材料的ML训练数据可以通过计算或实验方式收集。将数据分析和机器学习技术融入制造领域催生了工业4.0。
2. 机器学习的基本框架
ML利用数据生成程序来执行任务。ML算法大致可分为监督学习、无监督学习和强化学习。在PMCs领域,监督学习在各种属性的分类或预测方面更为重要。在监督学习中,算法使用标注良好的数据进行预测。无监督学习用于未标注数据的数据可视化、降维和异常值检测,它使用聚类或关联规则。监督学习的基本结构如下:
graph LR
classDef startend fill:#F5EBFF,stroke:#BE8FED,stroke-width:2px;
classDef process fill:#E5F6FF,stroke:#73A6FF,stroke-width:2px;
A([开始]):::startend --> B(数据采集):::process
B --> C(数据清洗和预处理):::process
C --> D(模型生成):::process
D --> E(性能指标评估):::process
E --> F([结束]):::startend
2.1 数据采集
首先,生成模型时问题定义应清晰。根据问题,从可用资源中考虑相关的解释变量进行数据采集。数据指的是结构化或非结构化形式的原始事实和数字。采集意味着为当前任务获取数据。由于任何ML模型都需要数据进行训练,因此第一步是从相关来源收集数据。
2.2 数据清洗和预处理
检索到的原始数据包含缺失、不一致和错误的数据、异常值以及混合类型的数据(数值和分类),这使得它不适合直接输入模型。即使是最好的ML算法,如果没有高质量的数据和数据清洗,也无法按预期运行。因此,清洗和数据准备需要投入大量时间。预处理步骤通过消除数据不规则性并对其进行归一化,将原始数据转换为干净可行的数据。对数据进行预处理后,可以测试多种ML算法进行预测,并根据性能评估指标选择最佳算法。
处理缺失数据有三种方法:忽略缺失记录、手动填充值或用计算值填充。必须识别并处理异常值,可以通过删除或填充的方式。在数据集成过程中,将来自不同来源的数据转换为标准形式/单位,并使其一致以整合数据。数据转换是指将非结构化的原始数据转换为更适合模型构建和数据发现的形式。“数据平滑”指的是去除数据中不良噪声或行为的方法。有时,特征/变量包含混合类型的数据(即分类、文本和数值),但大多数ML算法无法处理此类数据类型,因此需要进行数据类型转换以便机器解释。主要采用标签编码、独热编码和反向差分编码等技术将分类数据转换为数值类型。这些技术的选择取决于多种因素,并会影响模型的性能。对数据进行归一化处理,以便比较不同测量尺度的特征,这一步骤可以提高模型的训练稳定性和性能,数据通常归一化为0到1的范围。输入特征过多通常会使预测建模任务更具挑战性,这通常被称为维度灾难。为减少输入特征的数量,可以选择相关性最小的基本非冗余变量,另一种特征减少方法是特征提取,即通过组合现有特征构建有价值的变量。为实现更高精度而提取重要属性的过程通常称为特征工程。
3. 模型生成
数据准备和预处理完成后,需要选择合适的学习算法。选择合适的算法取决于特征的数据类型和问题目标,即回归问题还是分类问题。算法学习输出和输入变量之间的复杂关系。用于回归问题的主要算法包括线性回归(LR)、集成方法、神经网络(NN)、高斯过程回归(GPR)和支持向量回归(SVR)。分类问题则通过NN、逻辑回归(LoR)、支持向量机(SVM)、朴素贝叶斯、k近邻、决策树(DT)和随机森林等算法解决。选择合适的学习算法后,将处理后的数据分为三个子集:训练集、验证集和测试集。创建合适的子集对于构建高效模型至关重要,所选子集必须准确反映整个分析领域。使用训练数据集,模型获得处理输入的能力。验证集有助于微调算法参数,通过避免过拟合问题来提高性能,有时验证被视为训练阶段的一部分。测试集确保包含与手动确认准确的输出相匹配的输入数据,这个理想的集合用于测试结果,并根据性能指标评估所得模型的成功与否。
在训练过程中,选择最佳超参数可以使学习算法学习到将输入特征准确映射到响应变量的最佳参数。超参数控制学习过程及其产生的模型参数,包括数据子集创建、优化算法的学习率、隐藏层数量、激活函数和神经网络中的训练轮数等。不同算法的超参数可能不同,除非为提高模型性能进行调整,否则它们保持不变。参数是模型的内部组成部分,包括LR和LoR中的系数、NN中的权重和偏差等。微调超参数以提高模型性能的过程称为超参数优化。
3.1 性能指标评估
模型开发完成后,必须评估其对未见过数据的准确性,以选择性能最佳的模型。混淆矩阵、曲线下面积、准确率、召回率和精确率是评估分类模型的一些指标。对于评估回归模型的性能,则使用平均绝对误差(MAE)、均方误差(MSE)、均方根误差(RMSE)和决定系数(R²)等指标。还可以根据训练速度和预测时间对模型进行评估。
4. 机器学习在PMCs中的应用
研究人员一直在不断探索如何充分利用ML的潜力,通过优化材料特性以满足特定应用需求并开发最佳设计,来推动PMCs领域的发展。以下是一些使用监督学习技术的研究案例总结:
| 材料 | 数据库来源 | ML算法 | 输入 | 输出 |
| — | — | — | — | — |
| CaCO₃浸渍椰棕聚酯复合材料 | 实验 | ANN | 纤维长度和直径、CaCO₃填料含量 | 拉伸、弯曲和冲击强度 |
| 天然纤维 | 文献 | 逐步回归 | 密度、拉伸强度、拉伸模量、断裂伸长率 | 材料选择 |
| 纳米TiO₂涂层棉复合材料 | 实验 | MLR、MLP | 化学物质用量、反应时间 | 功能特性 |
| NFRPCs | 实验 | LR | 颗粒大小、重量分数 | 拉伸、弯曲和冲击强度 |
| 竹木复合材料 | 实验 | MLR、ANN | 试样特征参数、光谱参数 | 弹性模量 |
| 剑麻纤维增强纸浆复合材料 | 实验 | MLR | 纤维体积分数、纤维长度、复合材料厚度 | 吸声性能 |
| 木材PLA复合材料 | 实验 | MLR | 层高度、填充密度、填充模式 | 拉伸性能、能量吸收、韧性 |
| NFRPCs | 文献 | MLR | 拉伸和弯曲性能 | 材料选择 |
| 木纤维复合材料 | 实验 | CNN | 400*400像素的二维补丁 | 纤维束分割 |
| 淀粉、木纤维增强聚乙烯醇 | 实验 | MLP | 增塑剂含量、交联剂、发泡剂 | 拉伸强度 |
| 棕榈、丝瓜纤维增强PMCs | 实验 | ANN、MLR、ANFIS、SVR | 纤维、基体、纤维体积分数 | 拉伸强度、应变、弹性模量 |
| 稻草矿物复合板 | 实验 | DT、全连接级联ANN | 预测吸水率、板密度、板厚度、纤维长度、混合比例 | 吸水率、膨胀厚度 |
| 生物纳米复合材料 | 实验 | DT、AdaBoost | 成分组成 | 断裂韧性 |
| 竹木复合材料 | 实验 | SVM、ANN | 图像处理特征参数 | 短跨剪切应力、弯曲强度、杨氏模量 |
| 黄麻纤维增强混凝土复合材料 | 计算 | SVR、ANN | 水灰比、黄麻纤维长度和体积 | 抗压和抗拉强度 |
| NFRPCs | 文献 | 多SVM | SEM图像 | 损伤分类 |
| 玉米秸秆纤维与粘土结合材料 | 实验 | SVR | 频率、水分分数、厚度 | 吸声系数 |
| 纯高密度聚乙烯 | 实验 | LR、LoR、DT、SVM、RF、ANN、AdaBoost | 薄膜成分比例、工艺参数 | 拉伸强度 |
| 芒草轻质混凝土 | 实验 | GPR | 试样成分、养护时间和纤维预处理条件 | 抗压强度 |
| 玫瑰茄/剑麻纤维混杂聚酯复合材料 | 实验 | ANN、非线性回归 | 进给速度、切削速度、钻头直径 | 推力、扭矩 |
| 椰棕和剑麻纤维增强聚酯复合材料 | 实验 | ANN | 试样厚度、纤维体积分数 | 拉伸、弯曲和冲击强度 |
| 竹木复合集装箱地板 | 实验 | ANN | 铺层配置、密度、方向、厚度 | 断裂模量、弹性模量 |
| 大理石粉/红麻混杂聚酯复合材料 | 实验 | ANN | 滑动距离、速度、载荷、填料含量 | 拉伸性能、弯曲和冲击强度、滑动磨损率 |
| 棉纤维PP复合材料 | 实验 | 深度NN | 起始能量、传播能量、总能量、延展性指数、拉伸性能、纤维净重 | 纤维重量分数 |
| 棉纤维PVC复合材料 | 实验 | 深度NN | 纤维含量、归一化比能、载荷 | 位移 |
4.1 线性回归(LR)
LR是最简单且应用最广泛的ML算法,用于预测连续或数值变量的预测分析。简单LR定义了因变量和自变量之间的线性关系,当有多个自变量时,则称为多元线性回归(MLR)。最适合描述因变量随自变量变化的数据点的直线代表回归线,其计算公式如下:
[y = a_0 + a_1x_1 + a_2x_2 + \cdots + \epsilon]
其中,y是因变量/目标变量,(x_1)、(x_2)是自变量/预测变量,(a_1)、(a_2)是LR系数,(a_0)是截距,(\epsilon)是误差项,也称为残差。系数的最优值通常通过梯度下降法确定,该方法可最小化均方误差(MSE),误差项假定服从正态分布。LR的简单性和高可解释性使其具有更广泛的应用。例如,Prabu等人使用MLR研究了红泥颗粒大小及其在NFRPCs中的重量百分比对拉伸、弯曲和冲击强度的影响;Vigneshwaran和Venkateshwaran使用MLR预测了通过熔融沉积建模制造的木材增强PLA复合材料的机械性能。
4.2 逻辑回归(LoR)
LoR基于Sigmoid函数,是一种可应用于回归任务和二元分类的统计技术,通常用于预测离散值(即分类问题)。响应变量的值介于0和1之间,可通过以下公式确定:
[\log\left(\frac{y}{1 - y}\right) = a_0 + a_1x_1 + a_2x_2 + \cdots]
Cao等人使用LoR评估了通过热重分析对不同聚合物的热稳定性;Osburg等人使用LoR对客户购买木基聚合物复合材料的兴趣进行了分类。
4.3 决策树
DT算法通过递归地将数据集分解为较小的块,形成具有决策节点和叶节点的树结构。最顶层的节点是根节点,决策节点代表决策规则,进一步分支为决策节点,叶节点(终端节点)是任务的结果。数据集的划分基于其同质性。该算法可以处理回归和分类任务,处理分类和数值数据。确定最佳树大小很重要,因为过大的树会增加过拟合风险,而过小的树可能学习不足。树剪枝有助于在不影响模型准确性的情况下确定最佳大小。例如,Gupta等人使用DT算法分析了功能参数(粒度、施加负载、滑动距离和纤维重量分数)对剑麻增强环氧复合材料磨损行为的影响。
4.4 支持向量机
SVM用于分类和回归任务,它创建最佳决策边界(称为超平面),以最小误差将多维空间划分为不同类别。超平面通过最大化容差边界(即支持向量之间的最大距离)来创建。对于二元分类,使用线性SVM分类器。对于非线性数据集,使用非线性SVM核函数(如高斯核、Sigmoid核和多项式核)将其转换为更高维空间,以实现线性可分性。例如,Sultana等人使用SVR方法基于三个参数预测黄麻纤维增强混凝土复合材料的抗压和抗拉强度;Rajiv等人基于从文献中收集的SEM图像,使用SVM方法对NFRPCs的损伤形式进行分类。
4.5 高斯过程回归
GPR是一种常用的概率非参数贝叶斯学习技术,用于回归和分类问题,通常适用于较小的数据集。与其他标准监督机器学习技术不同,贝叶斯方法估计所有可能值的概率分布,而不是学习每个函数参数的精确值。核函数使GPR成为建模非线性数据的有效工具。GPR假设自变量和因变量具有相似的高斯分布,其表达式如下:
[y \sim GP(\mu(x), k(x, x’))]
其中,(\mu(x))和(k(x, x’))分别表示均值和协方差函数。
可持续复合材料制造的监督学习辅助模型
5. 机器学习算法的操作步骤与分析
5.1 线性回归(LR)操作步骤
- 数据准备 :收集包含自变量和因变量的数据集,确保数据的准确性和完整性。
- 模型选择 :根据自变量的数量,确定使用简单线性回归(一个自变量)还是多元线性回归(多个自变量)。
- 系数计算 :使用梯度下降法等优化算法,最小化均方误差(MSE),计算回归系数(a_0)、(a_1)、(a_2)等。
- 模型评估 :使用评估指标如均方误差(MSE)、均方根误差(RMSE)、决定系数((R^2))等评估模型的性能。
- 预测应用 :使用训练好的模型,输入新的自变量值,预测因变量的值。
5.2 逻辑回归(LoR)操作步骤
- 数据准备 :收集包含自变量和二元因变量(0或1)的数据集。
- 模型构建 :基于Sigmoid函数构建逻辑回归模型。
- 参数估计 :使用最大似然估计等方法,估计模型的参数(a_0)、(a_1)、(a_2)等。
- 模型评估 :使用混淆矩阵、准确率、召回率、精确率等指标评估模型的性能。
- 预测分类 :根据模型输出的概率值,将新的数据点分类为0或1。
5.3 决策树(DT)操作步骤
- 数据准备 :收集包含自变量和因变量的数据集,自变量可以是分类或数值类型。
- 树的构建 :递归地将数据集分解为较小的子集,根据同质性选择最佳的划分规则,形成决策树。
- 树的修剪 :为避免过拟合,使用树剪枝技术确定最佳的树大小。
- 模型评估 :使用交叉验证等方法评估模型的性能。
- 预测应用 :根据新的数据点,从根节点开始,沿着决策树的分支进行判断,直到到达叶节点,得到预测结果。
5.4 支持向量机(SVM)操作步骤
- 数据准备 :收集包含自变量和因变量的数据集,根据任务类型(分类或回归)确定因变量的类型。
- 核函数选择 :对于线性可分的数据集,选择线性核函数;对于非线性数据集,选择非线性核函数(如高斯核、Sigmoid核、多项式核)。
- 超平面构建 :通过最大化支持向量之间的距离,创建最佳决策边界(超平面)。
- 模型评估 :使用交叉验证等方法评估模型的性能。
- 预测应用 :根据新的数据点与超平面的位置关系,进行分类或回归预测。
5.5 高斯过程回归(GPR)操作步骤
- 数据准备 :收集包含自变量和因变量的数据集,通常适用于较小的数据集。
- 核函数选择 :选择合适的核函数来描述自变量和因变量之间的关系。
- 模型训练 :使用贝叶斯方法估计所有可能值的概率分布。
- 模型评估 :使用评估指标如均方误差(MSE)、均方根误差(RMSE)等评估模型的性能。
- 预测应用 :根据新的自变量值,预测因变量的概率分布。
6. 机器学习在可持续复合材料制造中的优势与挑战
6.1 优势
- 提高效率 :通过自动化和优化材料及工艺选择,减少实验次数和生产周期时间,降低成本。
- 精准预测 :能够发现各种制造工艺变量之间潜在的非线性复杂关系,提高对复合材料性能的预测准确性。
- 多功能应用 :在复合材料制造的多个阶段,如材料和工艺选择、样品表征、工艺参数优化等,都能发挥重要作用。
- 促进可持续发展 :帮助企业采用可持续的制造实践,减少环境足迹,符合可持续发展目标。
6.2 挑战
- 数据质量问题 :原始数据可能包含缺失、不一致和错误的数据、异常值以及混合类型的数据,需要进行大量的数据清洗和预处理工作。
- 算法选择困难 :不同的问题类型和数据集需要选择合适的ML算法,这需要专业的知识和经验。
- 模型解释性 :一些复杂的ML模型(如神经网络)的解释性较差,难以理解模型的决策过程。
- 计算资源需求 :某些ML算法(如深度学习)需要大量的计算资源和时间进行训练。
7. 总结与展望
机器学习在可持续复合材料制造领域具有巨大的潜力。通过监督学习辅助模型,可以优化材料特性,提高制造效率,减少环境影响。然而,要充分发挥机器学习的优势,还需要解决数据质量、算法选择、模型解释性和计算资源等方面的挑战。
未来,随着数据采集技术的不断发展和计算能力的提升,机器学习在可持续复合材料制造中的应用将更加广泛和深入。同时,研究人员也将不断探索新的ML算法和模型,以提高对复合材料性能的预测准确性和解释性。此外,将机器学习与其他技术(如物联网、大数据分析)相结合,有望实现复合材料制造的智能化和自动化,推动可持续复合材料制造领域的发展。
以下是一个总结机器学习在可持续复合材料制造中应用的流程图:
graph LR
classDef startend fill:#F5EBFF,stroke:#BE8FED,stroke-width:2px;
classDef process fill:#E5F6FF,stroke:#73A6FF,stroke-width:2px;
A([开始]):::startend --> B(数据采集):::process
B --> C(数据清洗和预处理):::process
C --> D(模型选择):::process
D --> E{问题类型}:::process
E -->|回归问题| F(LR、GPR、SVR等):::process
E -->|分类问题| G(LoR、SVM、DT等):::process
F --> H(模型训练):::process
G --> H
H --> I(模型评估):::process
I --> J{性能是否满足要求}:::process
J -->|是| K(应用于实际制造):::process
J -->|否| C
K --> L([结束]):::startend
通过以上流程,可以系统地应用机器学习技术,实现可持续复合材料的高效制造。
超级会员免费看

61

被折叠的 条评论
为什么被折叠?



