【GeoScience Café】董燕妮:高光谱遥感影像的测度学习方法研究

2017-05-31
  • 阅读:

文字:许慧琳 摄影:李韫辉、陈必武 摄像:戴佩玉 主持:许慧琳

>>>人物名片

董燕妮,测绘遥感信息工程国家重点实验室2014级博士研究生。已在IEEE TGRS、ISPRS和IEEE JSTARS等国际刊物上发表SCI检索论文6篇(其中第一作者5篇),EI等其他检索论文2篇。获得武汉大学光华奖学金、协同创新中心学生奖学金等。

>>>报告现场

在图像分类系统中,距离度量方法对于衡量图像间的相似度具有很重要的意义。距离测度学习方法通过有效利用有限的训练样本的标签信息和特征的统计信息,可以学到一种更适合评价图像间相似度的距离测度。随着机器学习的不断“走红”,测度学习在模式识别和机器学习领域所具有的广泛应用也愈加得到大家的关注。比如基于测度学习的人脸识别、图像检索以及运动物体分割等。

5月19日,测绘遥感信息工程国家重点实验室2014级博士研究生董燕妮做客GeoScience Café第162期学术交流活动,结合自己的研究成果,向我们介绍了测度学习在高光谱遥感影像特征降维、目标探测和影像分类等方面的应用与研究现状,让同学们受益匪浅。

高光谱遥感影像信息提取研究现状

报告首先从高光谱遥感影像数据的自身特点出发,总结高光谱遥感影像分析领域所面临的挑战,系统地介绍了高光谱遥感数据的研究现状和存在的问题,进而引入测度学习在高光谱界的发展潜力。

高光谱遥感数据具有:光谱分辨率高;光谱波段数目多且连续;图谱合一等特点。高光谱影像这些不同于传统遥感数据的特点和优势,与中、低光谱分辨率遥感影像相比,大大增强了其获取地物诊断性光谱信息的能力,可以识别中低光谱分辨率影像无法区分的一些具有细微差异的地物。然而高光谱遥感在提供丰富地物特征信息的同时,也为影像信息提取带来了很多的困难和挑战,主要体现为三个方面:(1)复杂的像元内部结构。高光谱分辨率的遥感影像往往其空间分辨率较低,影像中很少有纯净像元存在,一个像元中可能包含了多种地物类别。(2)光谱变化性。同类地物的光谱曲线可能会具有较大差异,即遥感影像中普遍存在“同物异谱”现象。(3)波段高度相关。相邻波段之间具有很强的相关性,导致信息冗余。

测度学习理论及其应用

早在1936年,R.A.Fisher就尝试使用不同的测度方式来解决分类问题(Fisher, 1936),自此之后测度学习方法在模式识别领域的应用越来越广泛,成为核心研究问题之一。测度学习的一般定义为:找到描述任意两个样本之间马氏距离测度。其主要目的是求取一个半正定对称矩阵M来建立样本不同特征向量之间的关系,使得训练样本的相似关系得以保留。

测度学习在模式识别与机器学习领域具有广泛的应用,比如基于测度学习的人脸识别,亲子关系鉴定,影像分类等。近年来,在高光谱遥感影像处理领域中出现了大量的机器学习方法,由于测度学习可以更准确的衡量高光谱遥感影像不同样本间的关系,实现不同样本最大程度地分离,所以可将测度学习应用于高光谱影像特征降维、目标探测与分类等方面。

最大边缘测度学习方法

高光谱目标探测中的主要难点就是训练样本过少,不能直接应用于现有的测度学习方法中。所以,董燕妮博士提出了一种基于最大边缘框架的测度学习(Maximum Margin Metric Learning, MMML)方法来自动从少量的训练样本中学习得到马氏距离测度矩阵,并加以相似与不相似的约束限制,提高目标和背景样本的可分离度。该方法不依赖于一定的统计假设,且不需要对混合像元模型建模,直接通过训练样本,利用最大边缘框架来学习得到测度矩阵,找到测度子空间。

随机森林测度学习方法

高光谱目标探测先验样本极其有限,甚至只有单一的先验目标样本,且目标、背景样本数不均衡,不服从独立同分布,从而不能有足够的训练样本用于重新构造对测试样本同样有效的机器学习模型。随机森林(Random Forest)作为一种分类器,已经被成功地运用到高光谱遥感影像分类应用中,但其需要大量的先验训练样本,且不能处理不均衡的目标和背景像元问题。如果直接将随机森林直接用到目标探测中,并不能将目标像元和背景像元有效地分离,得到理想的探测结果。

董燕妮博士通过考虑样本的相对位置和绝对成对位置的随机森林模型,综合多测度学习的优势,提出了一种有效的基于随机森林的测度学习方法。其解决了现有的单一测度学习方法直接处理多特征表达问题的弊端,将高维不均匀分布数据的目标能最大程度地从背景像元中区分。

局域自适应降维测度学习方法

高光谱降维技术主要以提取图像特征为主要的出发点,通过找到数据的低维空间来有效地对高维数据特征进行表达。现有的降维算法大多需要假设高光谱遥感影像是高斯分布的,并有对参数较敏感,鲁棒性较差等问题。在地物类别比较复杂的情况下,不能学习得到有效的距离测度,处理具有复杂分布的数据。基于此,董燕妮博士提出了一种局域自适应降维测度学习(Locally Adaptive Dimensionality Reduction Metric Learning, LADRml)方法,通过添加局域约束条件、相似性保持约束等,结合最大边缘测度学习目标函数,根据阈值和测度学习前后的距离变化进行最终决策,从而更好地实现样本的分类。通过将全局测度和局域自适应约束相结合,并加入最大边缘测度学习框架中,得到的LADRml算法不需要过多的参数调节,有很强的降维的泛化能力。

集成可区分性局域降维测度学习方法

经典的降维方法往往忽略了同类之间的相似性约束、不同类别的不相似约束,需要考虑地物分布的局域性特征。一些局域降维方法虽然考虑了地物分布的局域性特征,但是对局域近邻数目比较敏感,且受限于样本数目。

针对地物分布的局域性特征以及样本的有效性不同,提出了一种集成可区分性局域测度学习(Ensemble Discriminative Local Metric Learning, EDLML)方法用于高光谱遥感影像分类。考虑到全局测度学习并不适用于所有样本数据,EDLML算法采用局域加权测度学习方法,对中心样本的近邻区域进行加权测度学习,然后将局域测度进行集成,最终得到的测度空间使相似样本距离和最小的同时不相似样本距离和最大,得到更好的分类结果。

>>>互动交流

观众A:师姐你好!听了这个报告,我觉得介绍得很系统。你是出于什么想法做降维以及目标探测的研究呢?另外你所投的期刊都是较好的期刊,在期刊上的选择上是如何考虑的呢?谢谢!

董燕妮:首先是我进行测度学习研究的一个驱动。刚入学时我的研究方向是关于高光谱遥感影像的目标探测,在阅读大量文献之后,我发现测度学习与目标探测之间有一个共同的基底:目标探测是寻找目标与背景之间不相似的一个距离,而测度学习也是在寻找测度距离,两者之间有一定的联系。这就让我有了将测度学习应用于目标探测的想法。而之所以进行降维的研究呢,完全是因为在研究的后期发现测度学习可能更适合进行降维的应用,因为其可以转换为降维测度矩阵。

关于期刊,在投稿时,大家不能一开始就决定自己想要投什么期刊,而是需要先将自己的方法做好做全,然后再思考什么期刊比较合适。在寻找期刊时,应考虑业内普遍认可的期刊。不要担心投稿被拒,毕竟期刊那么多,只要你的方法靠谱,总是会有接纳它的地方。所以,大家一定要从好的期刊开始尝试。

观众B:你在实验中用ROC曲线进行评价,若两个算法曲线的AUC值一样,但曲线的波动程度不一样,如何评价算法优劣?

董燕妮:就拿我这两个实验的算法进行比较,其AUC值是很接近的,但是波动却不大相同。然而在目标探测时,最感兴趣的是虚警率为0.1甚至0.01之前的情况,当虚警为100%时就没有考虑的必要了,因为此时探测率也为100%。所以评价算法时,要结合一定的情况来进行评价。

观众C:我有三个问题想请教。首先,你在特征提取时主要考虑哪些特征,如何进行加权融合?在实验过程中使用的数据空间分辨率很高,属于高分辨率数据,那你觉得空间和光谱哪个提供的信息更重要?实验结果中每类地物的分类精度有高有低,但是总体精度却比较高,这是什么原因造成的呢?谢谢!

董燕妮:特征选择有很多方式,我选择的是线性的特征选择,也就是一种特征空间的转换。在输入样本过程中,判断数据样本越相似,则权重越大,样本对测度学习的贡献就越大。

对于第二个问题,虽然数据的空间分辨率很高,但是我在实验时没有利用其空间信息。算法中的局域加权是属于光谱维上的局域,利用的是不同样本间的信息。所以关于哪个信息比较重要的问题可能还需要进行别的工作来解决这个疑问。

最后,我觉得实验结果与样本的选择有关系,有些地物本身的的面积相对而言较小,而我选择样本时固定为总体的10%,导致了样本数目的不同。这也就是小样本问题。

图1 董燕妮作报告

图2 观众认真听报告

图3 互动交流

图4 嘉宾与GeoScience Café团队成员合影留念

(编辑:肖珊)

GeoScience Café以“谈笑间成就梦想”为口号,采取最自由的交流方式,每期邀请1-4位报告人,针对自己正在进行的研究展开报告。每周五晚7:30,在测绘遥感信息工程国家重点实验室四楼休闲厅举行当期活动。报告内容不仅涉及一切与测绘有关的学科内容及学术方法,如测绘基础学科、地理信息系统、摄影测量与遥感、全球定位系统、激光雷达技术、信号处理,还包括地理信息科学以外的话题,如法律和艺术等。让任何感兴趣的人——不仅是地理信息相关专业的师生,还包括其他专业的师生,甚至是文科生——都可以听取报告,并当场向主讲嘉宾提问或者会后与其交流。

更多精彩内容(报告PPT、新闻稿及下期活动消息等)敬请关注Geoscience Café群(QQ群号:532362856),微信公众号:GeoScienceCafe

欢迎扫描二维码: