神经网络在富营养化建模中的应用实例研究外文翻译资料

 2022-12-22 17:43:34

英语原文共 8 页,剩余内容已隐藏,支付完成后下载完整资料


神经网络在富营养化建模中的应用实例研究

摘要:随着复杂系统理论的发展和计算机处理能力的提高,人工神经网络在复杂系统预测模型开发中的应用越来越普遍。本文采用Levenberg-Marquardt三层前馈学习算法对土耳其三个水体(Keban Dam 水库、Mogan湖和Eymir湖)的富营养化过程进行建模。尽管Keban Dam水库非常复杂和特殊,但在实测值和计算值之间仍存在着较好的相关性(相关系数介于0.60和0.75之间)。Mogan湖和Eymir湖比Keban Dam水库要小得多,也比Keban Dam水库更均匀,因此测量值和计算值之间的相关值高达0.95。神经网络模型能够较好地模拟富营养化过程中的非线性行为,并能成功地从未用于训练神经网络的验证和测试数据集中估计极端值。

关键字:富营养化;模型;神经网络;叶绿素a

1.引言

富营养化是许多湖泊和水库面临的一个严重问题。内陆水体的自然或人为富集作用通常会引起富营养化并伴随典型海藻爆发,导致水质恶化和溶解氧水平的下降,并对渔业造成明显的不利影响。通过一些可测量的环境参数来预测富营养化水体的行为,将使人们有机会在(蓝藻爆发的)关键时期做好准备,并与其不利影响作斗争。

水体富营养化的行为是很难预测的,因为这包含了复杂的物理、化学和生物过程。经典的建模方法,无论是确定性的还是经验的,都能很好地估计叶绿素a浓度,但通常过于笼统,以至于不经过漫长的数据校准过程就不能直接应用。它们还对各种过程进行近似,以便能用线性方程表示。经典的方法可能会忽略许多影响富营养化现象的重要因素,例如生态系统的性质,以限制模型的复杂性。

神经网络是由并行操作的简单元素组成的,可以通过训练来解决几乎所有科学技术领域的许多复杂问题。尽管不像别的学科那样被用到的那么频繁,神经网络也用于湖沼学和富营养化管理领域。神经网络的训练技术和反向传播学习算法的一般用法在一些别的领域也被用到。

本文利用神经网络方法对三个不同水体建立了富营养化模型。这些湖泊之间的地理、形态、气候和水文性质完全不同。其中最大的水体,Keban Dam水库,位于35°20rsquo;-38°37rsquo;N,38°15rsquo;-39°52rsquo; E之间的Anatolia东部。该水库的最大操作水平高于地中海(the Mediterranean Sea)845m。在该操作层,水库的面积和容积分别为675 km2和30.6 km3。有一些点源污染和非点源污染,给Keban Dam带来了污染物,由于水文投入和发电活动的季节性变化很大,水库容易受到水库波动的影响,进而导致在给定的水文年内,在一些被淹地区的部分区域交替出现干旱和潮湿的现象。此外,流入水库的各种污染物的质量负荷也表现出季节间的高度变化趋势。水库从Murat河吸收了大量的N、P,这些N、P的含量是随季节而变化的。因此,在时间和空间高度变化的环境状态(物理、化学和气象)下估计和模拟生态的响应状况是一个非常复杂的问题,Keban Dam水库就是这样的一个例子。最近有文献提出了一个关于该水库的确定性模型的尝试。还有一个为Keban Dam水库建立的控制富营养化的管理模型。Mogan 和 Eymir是Ankara湖附近的两个浅湖,表面积分别为5.54 km2和 1.25 km2。Mogan 的容积是0.001163 km3,Eymir的容积是0.00388 km3。对这两个水体也曾进行了确定性建模的尝试。

在一些湖泊,叶绿素a是水体富营养化的主要指标,它线性依赖于一些输入变量,如透明度或悬浮固体浓度。然而,在许多情况下,如在Keban Dam 水库,Mogan和Eymir湖中,任意一个单个可测量的输入变量与输出参数之间没有直接关系(如叶绿素a和特定藻类物种的丰度)。Keban Dam水库的湖泊性质方面有很高的空间和时间变化。尽管Mogan和Eymir湖面积较小且结构相对均一,但它们的任一输入变量和叶绿素a之间都没有线性相关性。

神经网络是估计叶绿素a和某些藻类物种丰度之间非线性行为的理想选择。一个输入层是s型正切函数,输出层是线性传递函数的三层反向传播前馈神经网络,如果隐层的神经元数量足够多,就可以估计出具有限不连续数据的任一函数。

2.问题定义

正如其他利用反向传播神经网络模型解决的问题一样,水体富营养化的现象也可以被简化为一个输入-输出问题,并据此处理。水体富营养化,以及与之相关的海藻爆发,都是由一系列的物理、化学和生物因素引起的。为了成功模拟富营养化现象,这些因素应直接或间接地包含在系统中。

2.1输入变量

近年来,建立了一些关于研究Keban Dam水库富营养化问题和水体污染的长期科研项目。在这方面,已有近6年广泛的野外监测项目。在那些被认为控制富营养化的因素中,1991-1996年期间在Keban Dam水库定期测量以下化学和物理参数:PO4中的磷含量,NO3中的氮含量,碱度,悬浮物浓度,pH,水温,电导率,溶解氧浓度和透明度。

另一方面,1993-1995年,在Mogan和Eymir湖中定期测量以下化学和物理参数:总磷,NO3和NH3中的氮含量,水温,电导率,pH,浊度,透明度和悬浮固体浓度。

已知磷和氮物种是富营养化研究中的限制营养素。用碱度,pH和电导率模拟栖息地的化学特性可能会对生态系统产生直接或间接影响。太阳辐射为初级生产提供必要的光能和热能,这两者都是确定湖内代谢过程的重要因素。用水温作为输入模拟热量的影响,用悬浮固体浓度,浊度和透明度模拟可以到达透光区的光的影响。溶解氧浓度对于生物体的呼吸和一些化学反应都很重要。

据报道,有些水蚤和许多轮虫和桡足类生物能有效控制浮游植物的密度。除物理和化学参数外,Keban Dam水库的输入变量还包括了以下两个生物变量:

1.水蚤种的总密度(测量的Daphnia ambigua,Daphnia cucullata,Daphnia galeata,Daphnia moina,Daphnia schodleri和Daphnia总数)。

2. 被认为有可能影响浮游植物生长的浮游动物的总密度(测量的所有枝角类和桡足类物种的总密度)。

2.2目标输出

训练的主要目标输出是叶绿素a。有文献称Anabaena,Aphanizomenon,Microcystis和Oscillatoria等一些蓝绿藻属的生物是富营养化湖泊的典型浮游植物。

除了叶绿素a,还有三种典型的富营养化蓝藻属的指示物:Aphanizomenon sp.、Microcystis sp.和Oscillatoria sp.也作为目标输出。为了观察一些藻类的种群行为,选择分别属于三个不同种类的个体总数作为另一个目标输出,这三个不同的种类分别是:硅藻科,绿藻科和蓝藻科。

本文定义了许多不同的神经网络拓扑结构,并且使用不同数量的隐藏层神经元进行了许多训练。从透光区收集的数据既用作输入变量又作为输出参数。

3.方法

3.1训练方法

使用如图1中给出的三层前馈神经网络模型。在输入层和隐藏层之间选择了s型正切函数,并且在隐藏层和输出层之间选择了线性传递函数。在不同反向传播训练方法中,选择Levenberg-Marquardt算法是因为据报道它对于包含多达几百个神经元的中型神经网络具有最快的收敛性。

反向传播算法很多,最简单的实现方式是在性能函数减小最快速的方向,即负梯度方向上更新网络权重和偏差值。反向传播算法的一次迭代由等式1给出。

(1)

其中是第次迭代时的权重和偏差向量;是第次迭代的学习率;是第次迭代的梯度。

Levenberg-Marquardt算法的开发是为了实现更快的训练速度,并使用方程式2给出的更新算法。

(2)

其中是第次迭代时的权重和偏差向量;是雅可比矩阵,它包含关于权重和偏差的网络误差的一阶导数,是网络错误的矢量;是单位矩阵;是标量。

在每个成功步骤之后减小,并且当单个步骤增加性能函数时增加。通过这种方式,在算法的每次迭代中将始终降低性能函数。使用初始值0.001。Hagan和Menhaj详细描述了Levenberg-Marquardt算法在神经网络训练中的应用。

所有计算都由Mathworks公司的Matlab神经网络工具箱计算。

3.2预处理

为了提高训练效率,通过标准化训练集的均值和偏差(S.D.)来缩放网络输入和目标。此过程将输入值和目标值标准化,使得它们具有零均值和单位偏差。当训练完成时,通过反转动作使模拟结果去标准化。

3.3改善概括

隐层具有足够数量神经元的三层前馈反向传播神经网络可以近似模拟任何函数。因此,应该意识到神经网络可能正在记忆可用数据而不是概括它,因此称为过度拟合数据。过度拟合的神经网络模型通常非常成功地模仿训练集中的数据,但是对于未包括在训练中的数据产生错误的估计。为了获得良好的概括,应采取适当的预防措施防止过度拟合。可以通过以下两种方法之一来防止过度拟合:

  1. 正则化,其涉及性能函数的修改以仅分配足以用于学习系统的最小数量的隐藏层神经元。
  2. 提前停止,即在验证集的错误开始上升时停止培训。

本文用第二种方法:提前停止的方法阻止过度拟合。

为了决定何时停止训练,数据被随机分为三个子集,一半用于训练,四分之一用于验证,最后四分之一用于测试。

为了执行早期停止,分别针对训练集,验证集和测试集计算误差项,即测量的目标值与计算值之间的差。验证集上的错误通常会在培训的初始阶段减少。但是,当网络开始过度拟合数据时,验证集错误将开始上升。当该增加持续预定次数的迭代时,停止训练并保持权重值。测试集用于与验证集进行比较,以查看它们是否表现出类似的行为。如果验证错误和测试错误未显示类似行为,则可能表示数据划分不良。

在图2中,计算值与目标训练,验证和测试集之间的均方误差相对于纪元(迭代次数)绘制。

均方误差是前馈神经网络中使用的典型性能函数,由方程式3给出。

(3)

其中是均方误差;是元素的数量;是元素的索引;是第个元素的误差;是第个元素的目标值(测量值);是第个元素的计算值。

训练、验证和测试集的误差最初接近零,如预期的那样。但是,经过多次迭代后,验证错误开始上升,而训练错误仍然继续减少。在图2中,训练在第20个时期停止,其中验证错误开始上升。该图属于一个广泛的训练课程,因为所有的误差图显示了类似的行为,并且在开始过度拟合数据之前停止了神经网络训练。在图3中,给出了通常过度训练的神经网络的线性回归相关图。○显示的数据属于训练数据集,times;属于验证数据集,+属于测试数据集。对于所有回归图,在本研究的其余部分中使用相同的符号。

在神经网络拓扑中使用五到七个隐层神经元。

4.结果

叶绿素a是衡量水体中是否存在富营养化和富营养化程度最重要的指标之一。本文利用物理、化学和生物变量尝试了许多不同的神经网络结构来估计叶绿素a浓度的方程,这些变量经常在湖泊中采样得到。通过神经网络模型估算Keban Dam水库叶绿素a浓度变化与PO4,NO3,碱度,悬浮物浓度,pH值,水温,电导率,溶解氧,透明度,水蚤物种密度,枝角类和桡足类的物种的密度和体积密度的函数关系。在测量的和计算的叶绿素a浓度之间实现了0.749的线性回归系数(参见图4)。

与大而高度可变的Keban Dam水库相反,Mogan 和 Eymir湖是小型的,浅水的和相对稳定的湖泊。在这两个湖泊中,叶绿素a浓度被模拟为总磷,NO3中的氮,NH3中的氮,水温,电导率,pH,浊度,透明度和悬浮固体浓度的函数。将记录为0的叶绿素a值假定为最小非零样品的1:10(0.00001mg:1)。由于没有可用的浮游动物数据,因此它们未包含在模型中。

在第一次试验中,神经网络模型能够估计Eymir湖中的叶绿素a浓度的最佳回归系数为0.920。同样,神经网络能够模拟Mogan湖的叶绿素a浓度的回归系数为0.978。在第三次试验中,Mogan和Eymir湖的数据被合并并用作单个数据集。神经网络再次能够模拟叶绿素a浓度,回归系数为0.944(图5)。

对于Keban Dam水库,神经网络结构被修改为具有三个输出层的神经元,每个神经网络神经元分别对应于采样的Aphanizomenon,Microcystis和Oscillatoria物种的密度的对数。神经网络模型模拟Aphanizomenon物种的数量,回归系数为0.588。Microcystis和Oscillatoria物种估计相对较好,回归系数分别为0.722和0.728。这些图的一个例子:Microcystis在图6中给出。

在Keban Dam水库的另一次运行中,属于三个基本组的浮游植物细胞的总数,即硅藻科,绿藻科和蓝藻

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[20984],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。