从地表水水质变量估算地下水水质及灌溉渠道评级研究
1. 从地表水水质变量估算地下水水质
1.1 网络拓扑选择
网络拓扑结构或隐藏层的数量对网络准确性有影响,因此需要借助试错法或启发式搜索算法(如遗传算法)来确定。如今很多研究都利用遗传算法来确定神经网络的最优拓扑结构,本研究也应用了遗传算法的有效性,为当前问题寻找最佳的网络拓扑结构。
在选定模型拓扑结构后,使用一组已知输出变量值的数据集对网络进行训练,并应用不同的训练算法来确定最优权重(公式 14.1),从而得到一个能够准确预测训练数据集中未包含的未知情况下输出变量值的神经网络模型。
1.2 训练算法
为了找到使模型产生最佳结果的最优权重值,本研究使用了以下训练算法:
-
快速传播算法(Quick Propagation)
:这是一种批量技术,它利用了局部自适应技术的优势,根据局部参数(例如非全局学习率)调整步长的大小。此外,还使用了高阶导数的知识(如牛顿数学方法),这通常能更好地预测曲线的斜率和最小值的位置(在大多数情况下这个假设是令人满意的)。
-
共轭梯度下降算法(Conjugate Gradient Descent)
:基本的反向传播算法沿着最陡下降方向(梯度的负方向)调整权重,这是性能函数下降最快的方向。然而,尽管函数沿着梯度的负方向下降最快,但这并不一定能产生最快的收敛速度。在共轭梯度算法中,沿着共轭方向进行搜索,通常比最陡下降方向能产生更快的收敛速度。
-
Levenberg - Marquardt 算法
:该算法旨在接近二阶训练速度,而无需计算 Hessian 矩阵。当性能函数具有平方和的形式(在训练前馈网络中很常见)时,Hessian 矩阵可以近似为 (H = J^T J),梯度可以计算为 (g = J^T e),其中 (J) 是包含网络误差相对于权重和偏置的一阶导数的雅可比矩阵,(e) 是网络误差向量。雅可比矩阵可以通过标准的反向传播技术计算,这比计算 Hessian 矩阵要简单得多。
1.3 性能指标
为了分析数值模型的性能,常用的指标有均方根误差(Root Mean Square Error,RMSE)、相关系数(Correlation Coefficient)和协方差(Covariance):
-
均方根误差(RMSE)
:估计量 (\hat{q}) 相对于估计参数 (q) 的均方根误差定义为 (RMSE(\hat{q}) = \sqrt{E[(\hat{q} - q)^2]}),它从估计量的变化和无偏性方面评估估计量的质量。需要注意的是,均方根误差并不等同于绝对误差的期望值。
-
相关系数
:通常用希腊字母 (\rho) 表示,计算公式为 (\rho = \frac{cov(X, Y)}{\sigma_X \sigma_Y}),它表示观测数据集和预测数据集之间关系的大小和方向。
-
协方差
:两个联合分布的实值随机变量 (x) 和 (y) 且具有有限二阶矩的协方差定义为 (\sigma_{xy} = E[(x - E[x])(y - E[y])]),通过期望的线性性质可简化为 (\sigma_{xy} = E[xy] - E[x]E[y])。如果 (E[xy]) 为零,则随机变量是正交的。协方差表示两个变量之间的独立性,如果协方差为零,则两个变量相互依赖。
1.4 结果与讨论
为了实现本研究的目标,开发了 15 个模型,表 14.1 展示了这些模型的神经网络拓扑结构、遗传算法搜索设置、均方误差(MSE)、标准差(STDDEV)和相关系数(r)。对于每个水质参数,使用了三种算法:快速传播算法(QP)、共轭梯度下降算法(CGD)和 Levenberg - Marquardt 算法(LM)。MSE、STDDEV 和 r 有助于从这些算法中选择性能最佳的算法。
| 模型 | 神经网络架构 | GA 搜索设置 (P - G - Pe - CR - MC) | MSE | STDDEV | r |
|---|---|---|---|---|---|
| QP - Cl | 11 - 6 - 1 | 40 - 50 - 5 - 0.8 - 0.2 | 0.32 | 6.73 | 0.97 |
| QP - Turb | 11 - 16 - 1 | 40 - 50 - 5 - 0.8 - 0.2 | 0.37 | 1.33 | 0.99 |
| QP - TH | 11 - 10 - 1 | 40 - 50 - 5 - 0.8 - 0.2 | 18.60 | 18.83 | 0.92 |
| QP - pH | 11 - 5 - 1 | 40 - 50 - 5 - 0.8 - 0.2 | 0.04 | 0.16 | 0.85 |
| QP - Cond | 11 - 10 - 1 | 40 - 50 - 5 - 0.8 - 0.2 | 3.55 | 2.80 | 0.99 |
| CGD - Cl | 11 - 3 - 2 - 1 | 40 - 50 - 5 - 0.8 - 0.2 | 0.05 | 6.38 | 0.98 |
| CGD - Turb | 11 - 2 - 1 - 1 | 40 - 50 - 5 - 0.8 - 0.2 | 3.22 | 2.47 | 0.94 |
| CGD - TH | 11 - 4 - 3 - 1 | 40 - 50 - 5 - 0.8 - 0.2 | 7.25 | 10.84 | 0.95 |
| CGD - pH | 11 - 5 - 1 | 40 - 50 - 5 - 0.8 - 0.2 | 0.01 | 0.18 | 0.68 |
| CGD - Cond | 11 - 1 - 5 - 1 | 40 - 50 - 5 - 0.8 - 0.2 | 9.38 | 13.14 | 0.94 |
| LM - Cl | 11 - 4 - 6 - 1 | 40 - 50 - 5 - 0.8 - 0.2 | 4.87 | 7.08 | 0.96 |
| LM - Turb | 11 - 2 - 8 - 1 | 40 - 50 - 5 - 0.8 - 0.2 | 0.75 | 1.74 | 0.97 |
| LM - TH | 11 - 1 - 2 - 1 | 40 - 50 - 5 - 0.8 - 0.2 | 1.54 | 9.47 | 0.97 |
| LM - pH | 11 - 2 - 8 - 1 | 40 - 50 - 5 - 0.8 - 0.2 | 0.04 | 0.30 | 0.22 |
| LM - Cond | 11 - 2 - 3 - 1 | 40 - 50 - 5 - 0.8 - 0.2 | 3.09 | 10.61 | 0.99 |
所有 15 个模型通过在前缀添加训练算法类型和在后缀添加作为输出考虑的参数来命名。例如,使用 QP 算法训练以查找氯化物浓度的模型被命名为 QP - Cl。
QP - Turb、QP - pH、CGD - Cl、LM - TH 和 LM - Cond 分别被选为预测浊度(Turb)、pH 值、氯化物(Cl)、总硬度(TH)和电导率(Cond)的最佳性能模型。在这些选定的模型中,QP - pH 获得了最佳的 MSE,其次是 CGD - Cl;而 LM - Cond 的 MSE 最差,其次是 LM - TH。
由于所有模型都使用相同的参数进行训练,并且所有模型的迭代次数都固定为相同的值,因此模型的准确性可能受到输入和输出水质变量相关性的影响。由此可以得出结论,pH 值和氯化物浓度在很大程度上受到地表水水质的影响。而对于其他变量,如电导率和硬度的预测相对复杂。电导率受溶解离子的影响,其浓度取决于水中存在的化学杂质。工业基础设施和污水处理厂的废水会用这些杂质污染地表水。此外,某些地球物理特性(如石笋或砂岩的存在)会增加地下水的电导率。研究区域的地球物理特性有利于增加电导率,因此地下水的电导率高于化学杂质含量较低的地表水。这解释了地表水和地下水电导率之间的不明显关系。由于集水区的相同地球物理特性,硬度也比地下水高。钙和镁离子的浓度比地表水中高得多。地表水中硬度的存在也是由于该地区砂岩和石笋的存在,以及大多数地表水水体是在数百万年前由山体滑坡或地震形成的山间洞穴和漏斗等洼地中形成的。但是,由于砂岩或石笋的不透水层的存在,地表水向含水层的渗漏极少,因此地下水的硬度无法影响地表水的硬度。此外,硬度和电导率的反应时间比氯化物或 pH 值长。
2. 灌溉渠道评级
2.1 背景
随着世界上大多数主要城市的快速城市化,家庭、农业和工业消费者对水的需求不断增加。考虑到全球变暖导致的气候变化和人口的无节制增长,可用水资源的质量和数量正在减少。人口过剩导致对食物的需求增加,进而增加了灌溉用水的使用。为了满足不断增长的人口需求而进行的大规模工业化也增加了工业部门对水的需求。因此,世界各地的河流,特别是支流和分流,作为主要的水源之一,正面临着因不断增长的需求而灭绝的威胁。大规模工业化和城市人口的快速增长也增加了水体的污染程度。
2.2 指标的应用现状
如今,指标被广泛用于定性和定量的逻辑决策。例如:
- Sheng 等人(1997)使用地理信息系统(GIS)对发展中国家的流域进行分类。
- Hajeka 和 Boyd(1994)试图设计一个指标来选择水产养殖池塘的合适地点,其方法类似于用于评估灌溉、道路建设、废物处理和住宅开发的土壤系统。
- Brenner 和 Mondok(1995)借助流域输送因子、动物营养因子、管理因子(实际上是以粪大肠菌群和磷为影响参数的指标)以及地下水输送因子(其中溪流中的硝酸盐浓度是最有影响的决定因素)评估了农业排水对接收溪流水质的潜在影响。
- Heathwaite 等人(2000)开发了一个指标来确定控制磷和氮运输的来源和运输途径。根据该指标,磷的损失在流域的明确区域内最大,而硝酸盐的损失主要在流域的上游观察到。
- Wanqa 等人(1997)概念化了生物完整性指数(IBI)来确定流域生物丰富度与城市化之间的关系。该指数与森林覆盖率直接相关,但与农业用地间接相关,而农业用地又与城市化程度成正比。研究得出结论,超过 10 - 20% 的城市化对生物完整性不利。
- 指标还用于对虾养殖的选址,选择了坡度、土地利用类型、土壤厚度、海拔、土壤类型、土壤质地、土壤 pH 值、到海洋的距离、到道路的距离、当地市场和孵化场等作为决定参数,并排除了不允许用于对虾养殖的区域,通过一系列 GIS 模型确定和优先选择适合对虾养殖的区域。
- Karthika 等人(2005)使用土地利用指数来确定印度马哈拉施特拉邦thane 地区适合咸水水产养殖的地点。
- Stagnitti 和 Austin(1998)开发了一个独立的软件工具来选择新的水产养殖设施。Alcázar 和 Palau(2010)对地中海国家进行了研究,通过主成分聚类对流域进行分类,以基于空间特征进行环境流量预测,该方法包括 56 个参数以形成 5 个代表性的流域组。
- Shaw 和 Cooper(2008)开发了一个代表流域、溪流河段和植物类型之间关系的指标。Falcone 等人(2010)比较了代表流域人类干扰相对严重程度的指标,结果表明由多个变量组成的指标比单个变量的指标表现更好,“使用六个不相关变量(住房单元密度、道路密度、农药施用、大坝蓄水量、主流缓冲区的土地覆盖以及到最近运河/管道的距离)的阈值评分方法”被认为是最能代表流域人为干扰的方法。
- Jacobs 等人(2010)借助水文地貌变量开发了湿地状况指数,并将其应用于对 Nanticoke 河流域的湿地进行分类,变量根据“范围检查、响应性和指标冗余性”进行评分。
- He 等人(2000)使用水质、蒸散、径流、物种多样性、物种健康和利益相关者参与等因素开发了一个生态指标,用于评估改变后的流域状况。Wenger 等人(1990)使用模糊集模型根据渔业范围和非点源污染减排对流域进行优先排序,并利用溪流使用和溪流状况开发了适用于美国威斯康星州 Kewaunee 河流域的指标。
- Wang 等人(2010)提出了一个评估水电开发对流域生态系统影响的框架,将流域生态系统服务分为四类(供应、调节、文化服务和支持服务),并借助 21 个指标进行评估。通过各种评估技术(市场价值法、机会成本法、项目恢复法、旅行成本法和条件价值法)对模型进行校准,这些模型有助于确定水电开发对流域生态的关键影响,如对生物多样性的影响、水质受到负面影响、每单位电力的平均环境成本是上网电价的三倍,并且总体上通过从水电厂提取最大效用可以充分补偿流域的退化。
- Zhang 和 Barten 开发了一个用于分析流域退化对水产量影响的信息系统,该流域森林管理信息系统有三个子模块:第一个模块用于根据保护和恢复要求对流域进行优先排序;第二个模块是森林道路评估系统,用于分析道路网络对森林覆盖的影响;最后一个模块是收获计划审查系统,用于评估多年和多单元的森林采伐,这将有助于减少这些因素对水产量和相关水质变化的影响。
2.3 灌溉渠道评级指标的创建
指标在相关参数的决策识别、划定或表示方面的成功应用,促使作者创建灌溉渠道的指标,以根据其抑制不断增加的需求和极端事件数量的能力对其进行评级。
为了确定能够使灌溉渠道承受未来气候变化和无节制城市化带来的不确定性的最佳配置,选择了一组影响灌溉渠道稳定性和功能性的因素。这些因素分为两类:有利于提高灌溉渠道效率的因素和降低效率的因素。所有变量根据其提高效率的能力在 1 到 9 的尺度上进行评级,9 表示提高效率的能力最强,1 表示降低效率的能力最强。创建了这些因素在九点尺度上的所有可能组合,形成一个组合数据矩阵,代表灌溉渠道可能出现的各种情况。
然后,使用引导神经聚类方法(GNCM)和聚合决策树算法(DTA)对数据集进行聚类。根据聚类和两种方法的比较,确定了两种聚类算法在其最优聚类中都选择的具有最佳配置的样本。
根据聚类方法,灌溉渠道的流量可以是半高的,但流量的变化必须非常小。渠道损失和农民的需求分别必须是半低和极低的,并且应尽可能有更多的缓冲池塘,同时必须最大限度地提高地下水的贡献,最小化 sedimentation 的量。也就是说,灌溉渠道的开发应使农民的需求得到高度调节,在渠道内外创建大量的缓冲池塘,严格实施预防措施以控制入流量、渠道损失、水流湍流和 sedimentation。必须有储存多余水的基础设施,以便在极端事件中产生的多余水可以储存起来,用于高需求时期。只有具有上述推荐配置的灌溉渠道才能承受未来气候变化和城市人口无节制增长带来的脆弱性。
综上所述,通过对地表水水质变量估算地下水水质的研究,我们可以更好地了解地表水和地下水之间的相互作用,为水资源管理提供科学依据。而对灌溉渠道的评级研究则有助于设计和建设更具适应性和可持续性的灌溉系统,以应对不断变化的环境和需求。
从地表水水质变量估算地下水水质及灌溉渠道评级研究(续)
3. 技术方法深入分析
3.1 遗传算法在网络拓扑选择中的应用
遗传算法(GA)在寻找神经网络最优拓扑结构中发挥了关键作用。其基本原理是模拟生物进化过程,通过选择、交叉和变异等操作,不断优化网络结构。
-
选择操作
:根据个体的适应度值(在本研究中可以是模型的性能指标,如 MSE、相关系数等),选择适应度较高的个体作为父代,参与后续的交叉和变异操作。这样可以保证优秀的基因(网络结构)有更大的机会传递到下一代。
-
交叉操作
:将父代个体的部分基因进行交换,生成新的子代个体。在网络拓扑选择中,交叉操作可以是交换不同网络结构的隐藏层节点数量或连接方式等。
-
变异操作
:对某些个体的基因进行随机变异,引入新的基因信息,避免算法陷入局部最优。例如,随机改变某个隐藏层的节点数量。
下面是一个简单的 mermaid 流程图,展示了遗传算法在网络拓扑选择中的基本流程:
graph TD
A[初始化种群] --> B[评估适应度]
B --> C{是否满足终止条件}
C -- 否 --> D[选择操作]
D --> E[交叉操作]
E --> F[变异操作]
F --> B
C -- 是 --> G[输出最优解]
通过遗传算法的迭代优化,最终可以找到适合当前问题的最优网络拓扑结构,提高模型的准确性和性能。
3.2 训练算法的比较与选择
不同的训练算法在神经网络训练中具有不同的特点和优势。本研究中使用的快速传播算法(QP)、共轭梯度下降算法(CGD)和 Levenberg - Marquardt 算法(LM),它们在收敛速度、计算复杂度和对不同数据集的适应性等方面存在差异。
-
快速传播算法(QP)
:是一种批量技术,结合了局部自适应技术和高阶导数知识。它能够根据局部参数调整步长,更好地预测曲线的斜率和最小值位置,从而在大多数情况下实现较快的收敛速度。但对于一些复杂的数据集,可能会陷入局部最优。
-
共轭梯度下降算法(CGD)
:与基本的反向传播算法不同,它沿着共轭方向进行搜索,通常比最陡下降方向能产生更快的收敛速度。在处理大规模数据集时,CGD 可以减少计算量,提高训练效率。
-
Levenberg - Marquardt 算法(LM)
:旨在接近二阶训练速度,通过近似 Hessian 矩阵来更新权重。当性能函数具有平方和的形式时,LM 算法可以快速收敛到最优解。但它需要计算雅可比矩阵,对于大规模网络,计算复杂度较高。
为了更直观地比较这三种算法的性能,我们可以列出它们的优缺点:
| 算法 | 优点 | 缺点 |
| — | — | — |
| 快速传播算法(QP) | 收敛速度较快,能利用局部信息 | 可能陷入局部最优 |
| 共轭梯度下降算法(CGD) | 收敛速度快,减少计算量 | 对初始点敏感 |
| Levenberg - Marquardt 算法(LM) | 二阶收敛速度,适用于平方和性能函数 | 计算复杂度高 |
在实际应用中,需要根据数据集的特点、网络结构和计算资源等因素,选择合适的训练算法。
4. 研究结果的实际意义
4.1 地下水水质估算的意义
通过从地表水水质变量估算地下水水质,我们可以更好地了解地表水和地下水之间的相互关系。这对于水资源管理和保护具有重要意义:
-
水质监测与预警
:可以利用地表水水质数据及时预测地下水水质的变化,提前采取措施防止地下水污染。例如,当监测到地表水中氯化物或 pH 值异常时,可以预测地下水可能受到的影响,及时进行水质检测和治理。
-
水资源合理利用
:了解地表水和地下水之间的相互作用,有助于合理分配水资源。在地表水水质较好的情况下,可以适当增加地表水的利用,减少对地下水的开采,保护地下水资源。
-
生态环境保护
:准确估算地下水水质可以为生态环境保护提供科学依据。例如,对于依赖地下水生存的生态系统,如湿地、河流等,可以根据地下水水质的变化,采取相应的保护措施,维护生态平衡。
4.2 灌溉渠道评级的意义
对灌溉渠道进行评级,根据其抑制不断增加的需求和极端事件数量的能力进行评估,有助于设计和建设更具适应性和可持续性的灌溉系统:
-
提高灌溉效率
:通过选择具有最佳配置的灌溉渠道,可以减少渠道损失,提高水资源的利用效率。例如,合理控制流量、减少水流湍流和 sedimentation 等,可以使更多的水用于灌溉,提高农作物的产量。
-
应对气候变化
:在气候变化的背景下,灌溉渠道需要能够承受极端事件的影响,如洪水、干旱等。具有良好配置的灌溉渠道可以更好地应对这些挑战,保证农业生产的稳定。
-
促进农业可持续发展
:优化灌溉渠道的设计和管理,可以减少对水资源的浪费和对环境的影响,实现农业的可持续发展。例如,通过合理利用地下水和设置缓冲池塘,可以提高水资源的循环利用效率,减少对地表水资源的依赖。
5. 研究的局限性与展望
5.1 研究的局限性
本研究虽然取得了一定的成果,但也存在一些局限性:
-
数据局限性
:研究中使用的数据集相对较小,可能无法完全代表整个研究区域的实际情况。此外,数据的准确性和完整性也可能影响模型的性能。
-
模型局限性
:神经网络模型虽然具有较强的非线性拟合能力,但对于一些复杂的物理过程,可能无法准确描述。例如,地下水水质的变化可能受到多种因素的综合影响,模型可能无法考虑到所有的因素。
-
地理局限性
:研究结果可能只适用于特定的地理区域,对于其他地区的灌溉渠道和地下水水质估算,需要进行进一步的验证和调整。
5.2 展望
为了克服上述局限性,未来的研究可以从以下几个方面进行改进:
-
增加数据量
:收集更多的地表水和地下水水质数据,以及灌溉渠道的相关数据,提高模型的准确性和可靠性。
-
改进模型
:结合其他模型和方法,如物理模型、机器学习模型等,提高对复杂物理过程的描述能力。例如,可以将神经网络模型与水文模型相结合,更好地模拟地表水和地下水之间的相互作用。
-
拓展研究范围
:将研究范围扩大到不同的地理区域,验证模型的通用性和适用性。同时,考虑不同地区的地质、气候和人类活动等因素,对模型进行优化和调整。
通过不断的研究和改进,我们可以更好地了解地表水和地下水之间的相互关系,设计和建设更具适应性和可持续性的灌溉系统,为水资源的管理和保护提供更科学的依据。
总之,从地表水水质变量估算地下水水质和灌溉渠道评级的研究具有重要的理论和实际意义。通过深入分析技术方法、研究结果的实际意义以及研究的局限性和展望,我们可以为未来的研究和实践提供有益的参考,推动水资源管理和保护领域的发展。
超级会员免费看
1223

被折叠的 条评论
为什么被折叠?



