近红外光谱结合模式识别技术鉴别山茶油真伪的研究外文翻译资料

 2023-01-10 16:14:27

近红外光谱结合模式识别技术鉴别山茶油真伪的研究

原文作者 Shuifang Li, Xiangrong Zhu, Juhua Zhang, Gaoyang Li, Donglin Su, and Yang Shan

摘要:本研究采用近红外光谱法结合4种模式识别方法鉴别山茶油真伪。采用中国国家标准(GB)规定的气相色谱法(GC)对所收集的115个样本进行了鉴别。采用主成分分析(PCA)和聚类分析(HCA)两种非监督学习方法对近红外光谱数据进行初步研究。以判别分析(DA)和径向基函数神经网络(RBFNN)2种监督方法,建立校正模型并对未知样品进行预测。波数在6000~5750cm-1范围内,采用平滑法、一阶导数法和自动缩放法对光谱数据预处理,监督学习和非监督学习方法的正确分类率均可到达98.3%。本实验所建方法快速、无损且可靠,可用于山茶油真伪的鉴别。

关键词: 鉴别,近红外光谱,模式识别,山茶油

引言

山茶油(又名油茶籽油、茶籽油)是一种从油茶籽中提取的食用油(Camellia oleifera Abel)。主产于湖南、江西、广西、浙江等其他南部地区。目前,山茶油的年产量约为260000吨。预计2020年将会超过250万吨,大致相当于中国食用油消费量的15%~25%(中国国家林业局2009)。

山茶油的理化性质与橄榄油非常相似,因此又被称为“东方橄榄油”和“食用油之王”。山茶油含有丰富的维生素A、维生素B和维生素E,并且没有胆固醇。同时,山茶油的油酸含量很高(几乎85%的脂肪酸组成),还含有其他必需脂肪酸,如omega;-6亚油酸,其有保护心脏健康的功效,此外对于高血压具有一定的抗氧化能力(He and Guo 1982; Long and others 2008)。在中草药中,山茶油也被认为是营养丰富、帮助消化的膳食补充剂。但是山茶油的价格远远高于其他普通食用油。因此,将其他廉价的石油当做纯山茶油来掺假的情况正成为中国的一个长期问题。

中国政府采取了很多措施,来防止纯山茶油被掺假的行为,进而维护消费者权益。需依照GB/T5539–2008(国家质检总局2008a)和GB 11765–2003(国家质检总局2003)两种方法对山茶油进行定量定性的检验。这两种方法主要依赖于化学分析法和气相色谱法。主要使用一些具有高毒性和高腐蚀性的化学试剂,例如二硫化碳和浓硫酸。气相色谱法需要在采样前进行衍生化,这一过程是耗时且繁琐的。因此,我们迫切的需要一种快速上线方法来区分纯山茶油。因为快速、无侵害、环境友好和实时在线的优点,近红外光谱成为了一种优良的过程分析技术。在农业和食品质量评价中也得到了广泛的应用。

在石油行业中,已引入了许多新方法来解决食用油掺假的问题。在这些方法中,拉曼光谱、中红外光谱和近红外光谱较为常用。但是对于山茶油,只有少数学者进行过研究报道。海的实验结果表明:应用电子鼻对山油茶进行预测,其准确率可达到83.6%。王开发了近红外光谱和中红外光谱测定山茶油的鉴定方法。翁表明拉曼强度比(V1656/V1439)和山茶油的比例具有较高相关系数的线性关系(R2=0.994)。在他们的研究中,掺假样品是由纯山茶油和大豆油或玉米油等一些廉价的食用油按一定比例人工混合而成的。然而,我们发现已经有一些文献,运用近红外光谱直接识别商业纯山茶油。

主成分分析(PCA)是一种数据的可视化方法,可以有效的将相似性或差异性在多变量数据中快速可视化的方法。分层聚类分析(HCA)已被用来分类样本,分组测量样本之间的相似性。径向基函数神经网络(RBFNN)是一种非线性校正方法。由于其简单的结构在函数逼近和模式识别中应用广泛。其具有结构简单,训练速度段和更好的逼近能力等优点。判别分析(DA)以马氏距离(MD)为基础,已成功地应用与许多情况下的光谱鉴别。在这项研究中,我们的目标是做一个可行性研究,采用模式识别技术的近红外光谱研究方法,运用主成分分析(PCA)、分类聚层分析(HCA)、径向基函数神经网络(RBFNN)和判别分析(DA)来区分纯山茶油和非纯山茶油。

材料与方法

  1. 样品采集

本实验共有150个不同的纯山茶油样品(指定为样品1至115),包括49个原油样品收集来自于湖南常德当地农民,66个商业纯山茶油样品(标记)购于长沙当地商店。随机抽取86个样本,并用于训练集,而测试集包括其余29个样本。

2、光谱测量

利用Antaris II近红外分光光度计(Thermo Electron Co., Madison, Wis., U.S.A.)结合积分球在反射模式中收集近红外光谱。每个光谱平均扫描32次。光谱范围为10000到4000cmminus;1,在3.856cmminus;1左右测量原始数据,导致光谱的1557个变量。同一样品进行四重测量,减少不均匀性的影响。

样品(1毫升)放置在一个装有镀金垫板(FOSS, Denmark, 0.1 mm sample thickness, part nr10013156)的样品杯仪器(FOSS, Denmark, part nr 10013857)中。样品之间,用清洁剂清洗细胞,温水彻底冲洗,镜头纸擦干。

3、气相色谱分析

气相色谱分析的样品制备步骤是根据GB/T 17377–2008标准的方法进行(国家质检总局,2008):精确称量样品60毫克,放入10毫升带磨砂玻璃塞的试管中,用移液枪依次加入4mL异丙醇和200mu;L甲醇钾盐。盖上试管塞,剧烈摇晃30秒。加入1g硫酸氢钠中和多余的氢氧化钾。摇晃后,出现分层现象。然后用移液管将含衍生脂肪酸的上相部分移动至样品瓶。所有的样品均在冰箱内放置过夜。

配备有火焰离子化检测器(FID)的岛津2010系统(岛津公司,京都,日本)可以检测脂肪酸。RTX-WAX毛细管柱(30mtimes;0.250mmtimes;0.25mu;m)同样来自岛津公司。注入口温度和探测器温度分别设置为250℃和280℃。柱温以170℃保持30秒,然后以每分钟12℃的速度上升至230℃,以230℃保持21分钟。载气为氮气,其流速为1.1mL/min。采用的分光比为30:1。

5种脂肪酸甲酯标准品(油酸甲酯、亚油酸甲酯、亚麻酸甲酯、棕榈酸甲酯、硬脂酸甲酯)均购于奥德里奇化学有限公司(St. Louis,Mo., U.S.A.)。甲醇(Tedia Co., Inc., Fairfield, Ohio, U.S.A.)和异丙醇(Tianjin Kermel Chemical Reagent, Tianjin,China)是高效液相色谱法(HPLC)级。氢氧化钾(Shantou Xilong Chemical Co., Ltd.,Shantou, Guangdong, China)和氢氧化钾(Shanghai Zhenxing Chemical Co., Ltd., Shanghai, China)是分析级。

采用峰面积归一化法测定5个组分的相对浓度。在实验材料和实验方法上,每个样品油和2个分析样品均进行3个重复组实验。

  1. 光谱预处理

光谱的分布出现基线位移,原始的光谱数据也需要进行预处理。在本次实验中,采用了8种光谱预处理的方法,包括为:平滑法、平均中心法、自动缩放法、一阶导数法、二阶导数法以及它们的组合应用。Savitzky-Golay平滑法(SG)可以用来减少由系统内部因素引起的随机噪声。导数变换法可以消除光谱的基线倾斜,增强处理后的信号频谱的分辨率(Wang and others, 2006a)。平均中心法从每个变量中有效地去除绝对强度信息,从而使其集中在响应变化(bakeev 2005)。自动缩放法将所有变量的方差和赋予相同的权重。本次实验我们选择优化后的组合法(平滑法加上一阶导数和自动缩放法)作为我们此次研究的预处理方法。

5、软件

主成分分析(PCA),分层聚类分析(HCA)和径向基函数神经网络(RBFNN)都可在MATLAB 7版(Mathworks, U.S.A.)Windows XP中实现数据处理。在分层聚类分析(HCA)中,欧氏距离和单一型链接分别作为分类样品相似性和联动性的方法。判别分析(DA)则需在TQ软件中进行运作(Antaris II System, Thermo Electron Co., U.S.A.)。

6、化学计量学方法

主成分分析(PAC)是一种经典的无监督学习算法。此方法经常用于数据压缩和特征提取。PCA提取数据最大方差的正交方向和主成分(PCs)的原始变量线性组合(Bacci and others 1997)。第一主成分占尽可能多的变异数据,每一个成功的组成部分占尽可能多的剩余变异。

分层聚类分析(HCA)是分析多元数据的非监督分类方法。此方法的目标是在多维空间中按对象的亲近程度将其进行集群。此分析方法的一个重要组成部分是距离测度的重复计算,包括对象时之间的第一次距离和对象被分入集群的距离。最终的结果有一个树状图来表示。

判别分析(DA)是在主成分分析(PCA)和马氏距离(MD)的基础上发展而来的(Shah and Gemperline 1989; Robutti and others 2000)。判别分析是一种用于将一组观测数据分类为预定义的类的技术。马氏距离是每个样品到每个类中心的距离。、马氏距离可以反映出样品点和类的聚散程度。如果从某组的中心到一个采样点的距离最近,则这个采样点就被划入该组。

径向基函数神经网络(RBFNN)是一个优秀的机器学习方法。因其训练时间短、误差率达到全球最低(Liu and others 2004),已被广泛应用在分类(Pulido and others 1999)和回归(Fidecirc;ncio and others 2002)。RBFNN由输入层、隐藏层和输出层三部分组成。输入层将输入向量分布到隐藏层。隐藏层是整个径向基神经网络的关键部分,其主要完成非线性超平面的分离。我们采用了此功能的经典高斯形式。RBFNN算法的细节可以在文献中找到(Pulido and others 1999; Alexandridis and others 2005)。

结果与讨论

1、脂肪酸分析

山茶油气相色谱图见图1。通过比较样品和标准图,确定每个峰相对应的脂肪酸。可以看出,所有的脂肪酸在所采用的色谱条件下,完全分离,色谱峰形态良好。

在这项研究中,硬脂酸(C18:0)、油酸(C18:1)、亚油酸(C18:2)、亚麻酸(C18∶3),棕榈酸(C16:0)的含量均通过优化制备方法及气相色谱条件测定。GB 11765–2003(国家质检总局2003)规定了纯山茶油中脂肪酸的百分比(v/v),以及纯山茶油中油酸、亚油酸和饱和脂肪酸(C16:0和C18:0)的百分比应该分别为74%到87%,7%到14%,7%到11%。因此,每个样品的真实性质可以被确定。

所有油茶籽油的脂肪酸组成均列于表1。20个样品的油酸含量均低于74%,亚油酸含量则只有18个样品高于14%。值得注意的是,样品nr74和87的油酸含量接近74%,但亚油酸含量却低于14%。这两个样品被认定为纯油,因为它们的脂肪酸组成与纯山茶油非常相似。剩余的18个样品被认定为非纯山茶油。

2、山茶油NIR光谱

如图2所示,为典型山茶油样品的原始近红外反射光谱图。肉眼可以看出,两个样品油的原始光谱形状非常均匀,没有明显的差异。可以明显的看出,在5801、5677、4331、4258cm-1处有最大吸收峰,在7174和8269cm-1处有小吸收带。在Hourant 和 Westad的研究基础上,发现C-H键模式的第二条波含有大量的共轭信息,在8269cm-1左右出现最大重叠峰。C-H键模式和其他分子组合模式的峰值中心在7174cm-1附近。富含单不饱和脂肪酸的油,其峰值在5801cm-1,其反映为油酸(高浓度纯茶油)。5677cm-1处的峰表示的饱和程度(-CH 2 , CH 3 )为具有较低的饱和脂肪酸(SFA)、棕榈酸和硬脂酸(纯山茶油的SFA总量低于10%)。因为C-H键和甲基和亚甲基的官能团弯曲模型,最强吸收带位于4258和4331cm-1附近。

3、近红外光谱的变量筛选

在这项研究中,采集到的原始光谱通常具有宽,弱,非特异性和重叠带的特点(blanco and others 2000)。因此,一些不相关的变量就需要进行分类。简约模型可以通过搜索波长区域来取代全谱的获得,以此提高预测能力(Gributs and Burns 2006)。因此,噪声的影响、基线的漂移和估计峰的重叠,可以通过去除不必要的光谱区域而减少。

正如我们前面所讨论的,纯山茶油和非纯山茶油的主要的区别是油酸和亚油酸含量。在6000至5750cmminus;1区间内的峰值强度最能体现这2个成分的吸收度,因此在这区间内的66个变量作为输

剩余内容已隐藏,支付完成后下载完整资料


英语原文共 7 页,剩余内容已隐藏,支付完成后下载完整资料


资料编号:[286371],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。