首页 >> 新闻资讯 >> 正文

【GeoScience Café 第208期】朱祺琪:面向高分辨率遥感影像场景语义理解的概率主题模型研究

2018-11-02
  • 阅读:

核心提示:高分辨率遥感影像场景理解日益成为遥感影像信息处理领域的研究热点。然而,场景影像中多样的地物目标以及复杂多变的空间分布为场景解译带来了新的挑战。本报告将面向高分辨率遥感影像场景分类问题,基于概率主题模型灵活挖掘影像关键主题信息并实现特征降维的能力,围绕概率主题模型的“底层-中层-高层”三个层次进行系统的研究,并获得融合多源地理数据的遥感影像场景理解结果,为城市功能区变化分析等应用提供辅助。

主持:云若岚 摄影:陈博文 文字:陈博文 直播:崔松

>>>人物名片

朱祺琪,中国地质大学(武汉)信息工程学院特任副教授,硕士生导师。毕业于武汉大学,博士期间发表SCI和EI论文共11篇,一篇ESI高被引论文。获得武汉大学2018届优秀毕业生、博士研究生国家奖学金等奖项。担任TGRS、JSTARS、GRSL、IJRS等期刊审稿人。研究兴趣包括概率图模型、深度学习等机器学习方法在场景分类、变化检测以及在城市功能区等领域的应用等。

>>>报告现场

10月19日晚7点,武汉大学2018级优秀博士毕业生,中国地质大学(武汉)信息工程学院特任副教授,硕士生导师——朱祺琪做客GeoScience Café第208期学术交流活动。朱祺琪教授首先以中低分辨率遥感影像地物分类作为切入点,讲解了地物目标识别技术的局限性,介绍了多元特征语义融合主题模型、同异质主题联合的稀疏主题模型和自适应深度稀疏语义建模场景等内容,随后又与大家交流了自己的科研感悟与高校求职经历。报告结束后,嘉宾对存有疑惑的同学逐一耐心细致地回答问题。报告现场座无虚席,反响热烈,即使在报告结束之后,仍有许多观众留下与嘉宾进行讨论交流。

图 1 报告现场

【研究背景】

地图覆盖制图一直以来都是遥感测绘领域的一项重要任务。自从中低分辨率遥感卫星发射以来,如何利用遥感影像进行自动地物分类就成为遥感信息提取领域经久不衰的话题。经过近十年的研究,基本完成了从面向像素的分类到面向对象的过渡;但高光分辨率遥感影像的语义挖掘是否就此终结?是否还可挖掘出更高层次的语义信息?

几种简单地物混合而成的高层场景语义信息在高分辨率遥感影像上有清晰的展现,但由于底层特征到场景高程语义信息之间存在的语义鸿沟,使得地物目标识别还是那无法有效地理解重要开发区域的场景语义。

场景语义鸿沟从何而来?

(1)场景地物类别的多样性(2)场景中地物类别种类可变性大(3)场景中同一地物类别中的多样性(4)场景中地物的分布属性

地物分类特征是区别场景的重要属性,但传统地物识别方法无法充分利用这一属性。高分辨率遥感影像提供的空间细节特征中蕴含了地物间的高层空间语义关系信息,相同的地物类别通过不同的空间语义关系可以组成不同的高层场景类别。亟需发展高分辨率遥感影像场景理解的理论与方法!

图 2 高层场景理解

【多元特征语义融合的主题模型场景分类方法】

针对底层特征描述的问题,朱祺琪采用多元特征语义融合的主题模型场景分

类方法进行解决,并且介绍了SAL-PTM、SAL-PLSA和SAL-LDA算法。

SAL-PTM 主要流程是:在进行词袋表达之后,从中提取了三种不同特征,我

们分别将这三种特征输入到K均值聚类中,那么这三种特征就不会相互干扰,也避免了K均值聚类的硬分类能力比较差的特点。

SAL-PTM(SAL-PLSA和SAL-LDA)算法流程是:在得到这个视觉词袋表达之后,分别将他们输入到概率主题模型中,不同特征分别进行主题建模,避免概率主题模型融合能力不足的缺陷。

图 3 SAL-PTM主题建模和场景分类过程

【同异质主题联合的稀疏主题模型场景分类方法】

针对中层主题建模的难题朱祺琪采用同异质主题联合的稀疏主题模型场景

分类方法,并通过两个问题来进行解释。

问题1:主题特征冗余度高,代表性低

研究学者提出了正则化技术来解决这种问题,在主题上施加稀疏约束,改变模型的目标函数,但是这种方式代价高,需要求解更多正则项辅助参数,此外,经过实验发现在遥感影像上,效果也并不是很好。

利用稀疏主题模型(FSTM)解决这些问题,稀疏主题模型看似和LDA模型的

图模型很相似,但其主题概率分布遵循的不是狄利克雷先验,而是一个隐含的稀疏先验,这个稀疏先验主要是采用的快速收敛的Frank-wolf推理算法决定的,这使得经过L次迭代后,其主题分布δ遵循一个0范的隐含稀疏先验,δ最多不超过L+1个,这使得得到的这个主题分布可以快速得到并且是稀疏的。

问题2:若将FSTM直接应用于高分辨遥感影像场景分类,稀疏性使其表达

能力有限的。

因此基于的一些工作,朱祺琪采用了FSSTM算法,但是在进行实验时,对这样的混淆矩阵,FSSTM在UCM数据集上,棒球场、高尔夫球场、储油罐等包含关键地物目标的场景混淆严重,而通过分析发现,这三种场景都包含关键的地物目标,为什么会造成这种原因,应该怎么改善这种方法?

然后朱祺琪就使用了两种数据集进行对比分析,可以发现,棒球场的话,关

键区域是由红土组成的,而高尔夫球场主要是由白沙组成的,因此使用传统的均值格网方式的时候,由于影像被均匀切割,因此像这种关键区域,在切割的时候会被混入一些不关键的背景信息,导致关键信息比例下降,造成丢失,由于得到的主题建模的区分性比较低,从而造成错分。因此,对于这样的信息利用传统的分割方法就能提取到关键目标的同质信息,然后考虑怎么融入这些同质信息来描述这些具有代表性地物目标的场景。

图 4 SHHTFM算法流程

【自适应深度稀疏语义建模场景分类方法】

针对高层语义理解难点,朱祺琪采用自适应深度稀疏语义建模场景分类方法

对影像高层语义信息进行讲解。

考虑概率主题模型和深度学习的方法,那么深度学习与概率主题模型有什么联系呢?通过分析发现,概率主题模型,它的高层语义理解都是基于局部的影像块来提取的,虽然提取的比较稀疏,但是提取的也是代表性,显著性的信息。但是它也忽略了影像块之间的空间位置信息。

问题:对于这两种方式是否可以互补?

中层稀疏特征和深度特征的矩阵数值进行了比较,可以发现对于中层稀疏特

征,它非常稀疏并且具有代表性。而深度特征它非常的密集,而且相对于中层主题特征,它的数值要大得多。

因此在这个基础上,应该怎么将他们的信息更好的融入到影像之中呢?

首先,基于这样的特征值差异,对深度特征进行了归一化,其次对于这样的稀疏性的因素,对中层特征使用深度特征的最大值做了标准化。

图 5 ADSSM 算法流程

主要分为两部分,高层深度特征学习采用了预训练的CNN提取出它的全连接

层特征。对于中层稀疏主题建模采用了前面提到的方法,用这两种特征提取出来之后,对深度特征进行了归一化,对主题特征进行自适应拉伸,最后进行了融合,得到中高层语义联合表达的结果。

【总结和展望】

针对主题模型处理过程中的底层,中层和高层之间存在的一些问题,朱祺琪

提出了如下图所示的框架并进一步进行解释。

图 6 高分辨率遥感概率主题模型场景理解框架

首先对影像的底层特征提取,然后根据实际情况选择三个不同的方法。当没

有存储资源限制的时候,使用底层的多元特征语义融合主题模型进行场景分类。当有存储资源和GPU并行运算的限制时,使用中层的同异质主题联合稀疏建模。若没有GPU限制,就使用高层的自适应深度稀疏语义建模,最后使用到分类器中,得到一个场景标注的结果,并且与多元信息地理数据进行结合,得到场景理解的结果。

相关研究工作展望:

  • 大规模数据的场景理解

  • 结合多源社交媒体数据的场景类别定义与场景理解

  • 多尺度多时相高分辨率遥感影像场景变化分析

>>>互动交流

图 7 嘉宾与提问同学的精彩合集

问题1:在自适应深度稀疏语义那一块,做了深度特征与传统特征的归一化,为什么不能在将做归一化呢?

朱祺琪:其实我之前在光谱、纹理等特征串联那一块做过归一化,但是效果很不好。光谱纹理特征归一化之后,光谱我当初看到值是比较大的,而SIFT的值是非常小的。做到01归一化之后,其实并不能解决。比如光谱特征只有9维,但是例如RGB的SIFT特征只有128×三维,就算做了归一化之后,光谱特征占比依然非常小,所以对于一些需要通过光谱特征来区分影像,如果光谱特征占比较小,其光谱特征还是没有办法发挥,所以归一化效果并不好。

问题2:同异质主题联合,分割用的超像素分割,为什么没用多尺度分割?

朱祺琪:我的重点不在于分割,重点是能够提取出来关键目标的信息就行。而且SLIC是一种比较简单快速的方法。多尺度分割虽然增加了信息量,但是特征维度也增加了很多,对于提取同异质主题信息用SLIC分割效果已经可以了,如果加了多尺度,可能效果也会有提升。

问题3:场景理解和场景分类怎么理解?

朱祺琪:1、到目前为止两者还没有一个非常明确的规定,场景理解就是在场景分类的基础之上,需要对这些目标的空间语义关系有一个理解之后,利用空间语义关系直接建模来描述这个场景。

2、场景标注结果与多源社交媒体数据结合,因为场景有时候会有一些社会属性,并不是只有空间与光谱属性。所以在融入这些社会经济属性之后,它才是一个真正的理解。

问题4:学术与实际应用的关系

朱祺琪:目前所做的研究并不能很好的应用到实际生活当中。想要应用到实际生活中,必须需要很大并且与生活息息相关的数据集。想要应用到实际生活的第一步:制作一些实际应用非常相关的类别。第二步:将多源的社会经济属性数据融合进去才能应用到实际生活中。

问题5:场景分类中的场景分割,您是怎么解决的?

朱祺琪:我目前没有做场景分割的工作,我用到了SLIC方法对场景进行了分割,主要是为了提取其中的同异质信息,我们知道场景分割之后可以做场景分类的工作,但是我没有去做。

问题6:在有数据的情况下,机器学习无脑套用比通过专业知识建立模型效果要好,您是怎么认为呢?

朱祺琪:首先,我个人认为不一定机器学习无脑套用比专业人士做的精度要高。例如在某些任务上使用我的方法可能比使用深度学习方法的精度还要高一点。遥感影像和自然影像还是有很大差别的,如果直接套用的话,虽然深度学习能够得到较好的效果,如果想要得到更好的结果,需要根据遥感地物特点等来改进它,从而达到更好的效果。所以这个遥感专业知识的必要性还是非常大的。

图7 嘉宾与GeoScience Café 成员合影

GeoScience Café以“谈笑间成就梦想”为口号,采取最自由的交流方式,每期邀请1-4位报告人,针对自己正在进行的研究展开报告。每周五晚7:30,在测绘遥感信息工程国家重点实验室四楼休闲厅举行当期活动。报告内容不仅涉及一切与测绘有关的学科内容及学术方法,如测绘基础学科、地理信息系统、摄影测量与遥感、全球定位系统、激光雷达技术、信号处理,还包括地理信息科学以外的话题,如法律和艺术等。让任何感兴趣的人——不仅是地理信息相关专业的师生,还包括其他专业的师生,甚至是文科生——都可以听取报告,并当场向主讲嘉宾提问或者会后与其交流。

更多精彩内容(报告PPT、新闻稿及下期活动消息等)敬请关注Geoscience Café群(QQ群号:532362856),微信公众号:GeoScienceCafe