【GeoScience Café】翟晗:高光谱遥感影像稀疏子空间聚类研究

2017-10-25
  • 阅读:

文字:戴佩玉 摄影:龚瑜 摄像:许慧琳 主持:戴佩玉

>>>人物名片

翟晗,测绘遥感信息工程国家重点实验室2016级博士研究生,已在IEEE TGRS、GRSL和RS等国际刊物上发表SCI检索论文4篇(其中第一作者3篇),EI等其它检索论文3篇,曾获2016年武汉大学王之卓创新人才奖学金二等奖、协同创新中心学生奖学金等。

>>>报告现场

2017年10月9日19:30,翟晗做客GeoScience Café第174期学术交流活动,介绍了高光谱遥感影像的主要特点、聚类分类的难点,从不同角度给大家分享了现有聚类方法及应用,重点介绍了稀疏表达理论在高光谱影像聚类分析中的研究进展,让大家获益匪浅。

高光谱影像和高光谱聚类

高光谱传感器以成百上千个光谱通道对同一覆盖地区进行成像,从而获取近乎连续的光谱波段,相对于传统的三通道自然影像以及多通道的多光谱影像而言,光谱信息丰富,对亚类以及一些微小差别的地物类型的识别等精细分类有独特的作用。例如图1中植被和土壤是通过光谱上的细微差别来进行有效的区分。

图1(a)植被

图1(b)土壤

图1高光谱遥感影像特征分类示意图

传统的高光谱影像分类一般为监督分类,图2给出了两种典型的代表,浅层分类中的支持向量机和深层分类中的深度学习。在实际应用中,高分类精度往往依赖于大量的训练样本,但是在训练样本一定的情况下,随着波段数不断增加,分类精度并不会一直提升,到达某一个临界点后,反而会导致分类器的性能变差,这就是常说的休斯现象。同时高光谱图像由于波段数过多,光谱信息过度冗余,影响监督分类效果,现实生活中也很难得到足够多的高质量标记样本来进行高精度的分类。考虑到这些问题,高光谱聚类这种完全不依赖训练样本信息的非监督分类方式受到广泛关注,它可以完全依赖数据本身的内在结构特征、挖掘数据本身的结构属性来有效区分各个像素的归属和类别,从而得到地物的解译信息。

图2监督分类典型方法

高光谱遥感影像的聚类可以定义为,将高光谱像素按照一定的相似性测度,在特征空间中进行一系列的相似性划分,使得分为同一类的像素尽可能相似,不同类的像素之间有很好的可分离性,这样的过程就是聚类。完全非监督和不依赖任何先验知识和训练样本的加入挖掘数据本身结构信息是它两个重要特征。一般聚类流程见图3。

图3聚类基本流程

高光谱影像聚类方法

根据高光谱遥感影像的机理,可以将聚类方法简单分为5种。首先是基于聚类中心的方法,典型的算法有K-means、fuzzy e-means等,以K-means为例,主要思想是通过不断地迭代、寻找更新聚类中心,使得各个像素点到聚类中心距离的均方根误差最小,得到最终的聚类效果,如图4。

图4 K-means聚类方法过程

第二种是基于密度的聚类算法,典型算法如DBSCAN、AP、CFSFDP等,假设同类别的像素点密集存在,不同类型的像素点之间存在稀疏关系,聚类中心往往是稀疏空间隔离开来的密集区域,通过计算局部密度以及聚类中心的相对距离来进行建模聚类。以AP算法为例,权属信息r表示聚类中心选择一个像素作为本身类别的适合程度,传递从聚类中心到像素之间的信息,归属信息a表示像素归属于聚类中心的适合程度,传递像素到聚类中心的信息,通过对这两个信息的不断迭代更新,得到一个稳定状态,定义了衰减系数λ防止出现局部最小或者迭代最大的出现,但这种方法需要人工调节的参数较多

第三类是仿生型模型,主要代表方法包括ABNet、ADNA等,这类算法的优势在于结合仿生学、生物学模型,模拟高光谱影像结构。以人工DNA聚类为例,如图5,遗传变异发生在组成DNA的四种嘌呤之间进行,用这种过程模拟高光谱遥感影像像素之间的“同物异谱、异物同谱”现象,但这种仿生学的模型并不能很好的吻合高光谱内在的结构特征,对于一些数据往往会出现过平滑、区分能力不足的现象,计算复杂度较高。

图5 ADNA算法模型展示

第四种,基于图的聚类,典型方法包括SC、SCC、N-cut等,通过建立相似矩阵来刻画像素之间的关系,根据图的结构权重的最优化得到最终聚类结果。

前四类的聚类方法都属于传统聚类方法,近些年基于稀疏表达的子空间聚类方法也发展迅猛,典型的方法包括SSC、S4C、L2-SSC等。

稀疏子空间聚类

稀疏表达是指用尽可能少的非0系数表示信号的主要信息,简化信号处理问题的求解过程。稀疏子空间聚类忽略光谱曲线具体表现出的形式,对属于同一类的像素纳入同一个子空间,进行原始图像的刻画,逼近其内在特征空间结构。利用稀疏表达理论,根据数据的自表达属性将每个像素根据字典进行线性表达,稀疏系数矩阵表示字典中的每个原子在表达原始像素时的贡献程度。

图6稀疏表达基本原理

SSC算法中,对像素按波段进行列化,将三维的高光谱影像映射到二维空间,因此行数一般远远小于列数,未知量的个数远远多于方程数,这是个欠定问题,难以求解。通过研究稀疏约束,将NP-hard的0范数约束凸松弛到1范数,通过ADMM求解,建立邻接矩阵,按照对称式L1引导的图方式进行聚类。

根据地理学第一定律,地物的变化是一个缓慢的过程,很小的局部邻域内的像素可以视为是同一类别的,在表达时的稀疏系数也应该是十分接近的,但传统SSC算法并没有体现出这种空间上的语义信息,从而使得表达系数的判别能力非常欠缺,不能很好区分开光谱相似的类别,同时由于没有融合空间信息,很难避免椒盐噪声的现象,如图7所示,四种地物类型的光谱曲线非常相似,出现高度混叠,在没有任何先验知识训练样本的情况下,完全依靠数据本身的结构,很难进行有效区分。

面对这一问题,翟晗提出SSC-S算法,假设局部八邻域内像素近似属于同一类,利用局部均值对表达系数进行有效约束,缓解由于奇异值或噪声的干扰造成的误差。但这种空间信息融入方式忽略了不同类别边缘地区邻域均值的计算误差会被放大,据此,翟晗提出利用TV约束,通过四邻域对相似性系数进行有效约束,采用2范数近似代替传统1范数约束,收敛速度大大提升。

与传统方法结果比较如图8、9,融合空谱信息之后,聚类效果明显优于其它算法,在有效平滑类内噪声的同时,减少错误分的存在以及椒盐噪声的影响。

图7相似地物类型分类结果

图8 Pavia大学聚类效果比较示意图(a) kmeans, (b) FCM, (C) CFSFDP, (d) SSC, (e) FCM_S1, (f) SSC-S, (g) L2-SSC, and (h) ground truth.

图9 Washington DC地区聚类效果示意图:(a) kmeans, (b) FCM, (C) CFSFDP, (d) SSC, (e) FCM_S1, (f) SSC-S, (g) L2-SSC, and (h) the ground truth

稀疏表达本质上是一种线性表达,而高光谱影像特空间十分复杂,是个典型的非线性可分数据,利用线性表达来刻画像素间的相似性是不准确的,因此,翟晗提出利用核映射的方式使得原来非线性可分问题变成线性可分的问题,在核空间进行稀疏表达。与SSC方法相似,结合空谱信息,引入max pooling强化相关性更高的最大值,抑制最小值的干扰,改善稀疏系数矩阵的质量,保证分类结果的精度。

翟晗提出的前三种方法都是基于像素的聚类结果,在进行高光谱影像信息提取的过程中,由于像素之间并不是独立存在的,而是在一定空间内高度相关的,使得可以利用一个对象来刻画这部分所有像素的本身属性。引入面向对象的方法,通过分割光谱均质的局部区域作为目标,提取对象特征,代替原来的逐像素的划分。

(作者部分内容尚未发表,没有详细信息。)

>>>互动交流

观众A师兄,请问在做影像聚类时,一般考虑哪些特征?如果对它进行求导、高阶求导等一系列的计算,会不会对聚类的精度有效提升?

翟晗:这里只考虑了光谱信息以及空间邻域信息,并没有从多特征维度进行考量,因为这里只是验证算法的有效性,并没有考虑到纹理信息,结构信息,但如果利用多特征,采用同样的模型,精度一定会有很大的提升。求导操作相当于只是预处理的操作,比如直接求导就是得到的它的梯度信息,只是对它的特征维度进行了丰富,并没有对算法有所提升。但是在很多情况中,也不是加入的特征越多,最后分类的效果越好,可能特征并没有有效的反映光谱相似的亚类之间的关系。

观众B:师兄,你在面向对象的SSC算法中的分块有什么依据?

翟晗:直接用的mean shift,这里分块没有具体的尺度要求,只要得到的对象块足够均一,如果块分的过粗糙的话,字典的系数表达过程中各个原子间很难很好的协同作用共同逼近原始效果,使得稀疏矩阵的误差比较大;但如果划分的过于细腻,字典维度就比较大,计算复杂量很高,而mean shift可以自适应的选择到最合适的尺度。

图10嘉宾作报告

图11观众认真聆听报告

图12嘉宾(左四)与GeoScience Café团队成员合影留念

(编辑:肖珊)

GeoScienceCafé以“谈笑间成就梦想”为口号,采取最自由的交流方式,每期邀请1-4位报告人,针对自己正在进行的研究展开报告。每周五晚7:30,在测绘遥感信息工程国家重点实验室四楼休闲厅举行当期活动。报告内容不仅涉及一切与测绘有关的学科内容及学术方法,如测绘基础学科、地理信息系统、摄影测量与遥感、全球定位系统、激光雷达技术、信号处理,还包括地理信息科学以外的话题,如法律和艺术等。让任何感兴趣的人——不仅是地理信息相关专业的师生,还包括其他专业的师生,甚至是文科生——都可以听取报告,并当场向主讲嘉宾提问或者会后与其交流。

更多精彩内容(报告PPT、新闻稿及下期活动消息等)敬请关注GeoscienceCafé群(QQ群号:532362856),微信公众号:GeoScienceCafe

欢迎扫描二维码: