发布时间:2019-10-29 17:42 原文链接: 近红外光谱分析方法研究——从传统数据到大数据

红外光谱分析技术作为一种绿色分析技术,在许多领域中已得到广泛应用。  


随着应用的深入和拓展,近红外光谱的数据类型逐渐从传统数据变成近红外光谱大数据。


本文总结了近红外光谱的预处理、奇异样本筛选、多元校正和模型转移等技术及其在相关领域的应用。


对近红外光谱大数据分析技术的初步研究,包括近红外光谱在工业品在线检测、不同批次产品鉴别中的应用以及近红外光谱物联网系统等也进行了综述。 


此外,对于近红外光谱大数据未来的发展及近红外光谱大数据云平台的基本功能、软硬件的设计与开发、建设过程中需要解决的问题等进行了详细阐述。


随着数字时代的到来,人类对自然和社会认识的进一步加深,人类的活动空间得到进一步扩展。


高度数字化的生活使得人类在科学研究、互联网应用、电子商务、移动运营等诸多领域均出现了大规模的数据增长,大数据时代已经来临。


与传统的数据集合相比,大数据可以通过挖掘和应用创造出巨大的价值,因此迅速发展成为工业界、学术界乃至世界各国政府高度关注的热点。


大数据以其颠覆性的技术对国家治理模式、企业决策、组织和业务流程以及个人生活方式等均产生了巨大的影响。 

大数据时代

作为一个新兴的概念, 大数据问题得到了学术界、工业界乃至政府机构的密切关注,并对其产生浓厚的兴趣。  


Nature于2008年针对大数据推出了专刊“Big Data”。


Science于2011年推出专刊“Dealing with Data”,围绕科学研究中大数据的问题展开讨论,从互联网技术、互联网经济学、超级计算、环境科学、生物医药等多个方面讨论了大数据处理面临的各种问题,说明了大数据对于科学研究的重要性。


2012年,美国奥巴马政府发布了“大数据研究和发展倡议”,宣布投资2亿美元启动“大数据研发计划”。


这一计划使大数据上升到了国家战略层次,使之成为各国关注的热点,之后与大数据相关的研究成果呈现出爆炸性的增长并一直持续至今, 2012年也因此成为大数据的元年。

大数据研究与应用


虽然大数据的重要性得到各行各业的一致认同,但对大数据本身至今尚无确切统一的定义。目前普遍认为,大数据具有“ 4 V ” 特点 , 即数据体量(volumes)巨大、数据类别(variety)繁多、产生与处理速度(velocity)快、价值(value)密度低但可挖掘价值高。


目前,大数据的研究内容主要集中在大数据采集、处理与集成、分析和解释的过程中产生的一系列热点和难点问题。


在数据采集技术迅速发展的同时,数据的集成与整理技术也得到发展。通过数据集成,将结构复杂的数据转换为便于处理的数据结构,通过对数据的整理保证数据的质量及可靠性。 


数据分析是大数据处理流程中的核心部分,通过对数据进行分析,可以发现数据的价值。传统的数据处理分析方法,包括聚类分析、因子分析、相关分析、回归分析等仍然可以用于大数据分析。


但由于大数据本身数据量大、实时性强的特点,使得传统方法在处理大数据时也存在众多局限性。


因此,出现了许多专门针对大数据的分析方法,如散列法、布隆过滤器(Bloom Filter)、Trie树等。


同时,针对不同类型的大数据,也存在不同的分析方法。如对文本进行分析的自然语言处理(NLP)技术,对 Web 进行分析的 Page Rank法和CLEVER法,对多媒体进行分析的摘要系统以及对社交网络进行分析的概率法和线性代数法等。


基于分布式文件系统、分布式数据库、批处理技术及开源平台的云技术为大数据分析奠定了基础。


通过云技术实现了海量数据的高效存储、大数据的分布管理以及大数据分析的技术与平台。同时,可视化技术在大数据分析中也得到发展并发挥了重要作用。 


大数据目前已广泛应用于生命科学、医疗、商业、金融等行业中。在医疗领域中,大数据分析用于复杂疾病的早期诊断、心血管病的远程治疗、器官移植、HIV抗体的研究等,均取得了较好的效果。


在生命科学领域,大数据技术用于基因组学、生物医学、生物信息学等方向。商业是大数据应用最广泛的领域, 各种大数据的经典应用均来自此领域。


如利用大数据关联分析,更准确地了解消费者的使用行为,挖掘新的商业模式; 利用大数据进行库存优化、物流优化、供应商协同等工作,缓和供需之间的矛盾、控制预算开支、提升服务等。此外,大数据技术还用于温室气体排放的检测、政府信息管理等公共领域。


近红外光谱技术


近红外光谱分析技术作为一种绿色分析技术,有分析速度快、操作简单、不需要样本预处理、可实现原位、无损、在线的定性定量分析等优点。


实践证明,以近红外光谱分析为主的过程分析技术为工业信息化与自动化的深度融合起到了决定性的作用,它所提供的快速、实时测量信息可以使工农业生产过程保持最优化的控制,在显著提高产品质量的同时,降低生产成本和资源消耗。


然而,由于近红外光谱存在吸收强度弱、光谱重叠严重等缺点,要想进行准确的定性定量分析,必须借助化学计量学方法所建立的高质量的模型。


因此,基于化学计量学的近红外光谱的数据处理技术研究得到了广泛的研究。 目前,近红外光谱的数据分析技术研究主要集中在光谱预处理(包括变量筛选)技术、建模样本筛选技术、多元校正技术和模型转移技术等方面。 


实验采集到的原始近红外光谱除了包含与样品相关的有用信息外,往往伴随随机噪音、背景干扰、杂散光等干扰信息,对校正模型的质量和未知样品预测的准确度将产生严重的影响。 


因此,在建立校正模型之前,通过光谱预处理技术消除各种类型的干扰显得十分关键和必要。


常用的光谱预处理技术包括多元散射校正(MSC)、正交信号校正(OSC)、净信号分解[40]、连续小波变换(CWT)等。


如图1所示, MSC可以有效地消除样本颗粒分布不均匀及颗粒大小不同而产生的散射对其光谱的影响,而CWT可以有效地对样品光谱进行背景扣除。实践证明,光谱预处理技术可以有效地消除光谱中的变动背景及散射干扰,处理后的光谱可以有效提高校正模型的质量和未知样品预测的准确度。    

波长筛选技术对于得到代表样品信息的重要波长、删除冗余波长、提高模型预测精度和简化模型均具有重要意义, 因此针对波长筛选开展了大量研究工作。 


常用的波长筛选技术包括模拟退火算法(SA)、遗传算法(GA)、粒子群算法(PSO)、连续投影算法(SPA)、无信息变量选择(UVE)、竞争性自适应重加权算法(CARS)[53,等。 


 我们在之前的工作中也提出了基于蒙特卡洛的无信息变量选择算法(MC-UVE)、随机检验算法(RT)、强影响变量算法(IVs)、基于特征投影图(LPG)的变量选择算法[58]和基于局部线性嵌入的变量选择算法等。  


图2是LPG方法用于变量选择的示例,其中图2(a)为光谱数据集的特征投影图,其中实心三角形的点为特征投影图拐点处的变量,即根据共线性原则选择的变量;  图2(b)中标出了选择的变量在实际光谱(经过连续小波变换处理)中的位置。


可以看到,根据LPG法选出的变量均处于光谱的拐点位置,具有很强的共线性,对于建模的贡献较大,可以进行稳定的建模。


在实验和实际生产生活采集到的光谱之中,总会存在一些落在总体样品分布之外的样本,该类样品被称作奇异样本(outlier)。