首页 >> 科学研究 >> 科研动态 >> 正文

2020年9月19日第91期CCF-CV走进高校系列报告会(@武汉大学)云直播活动圆满结束

2020-09-24
  • 阅读:

(通讯员:石立特)2020年9月19日下午,中国计算机学会计算机视觉专委会(CCF-CV)走进高校系列报告会第91期活动 –“计算机视觉前沿技术及应用”通过线上直播的形式在武汉大学成功举行。本期报告会由武汉大学测绘遥感信息工程国家重点实验室空间智能研究所承办,实验室杨必胜教授和涂志刚研究员担任执行主席。活动特邀中科院自动化所王亮研究员、北京大学黄铁军教授、北京大学林宙辰教授以及电子科技大学李宏亮教授等四位专家作学术报告。与会专家围绕“计算机视觉领域的前沿技术及应用”主题,就计算机视觉领域的多个前沿学术问题、热点应用问题进行了深入探讨,引起广泛共鸣。

报告会由涂志刚研究员主持。杨必胜教授在开幕式上致欢迎辞,对与会专家学者表示热烈欢迎,对中国计算机学会计算机视觉专委会的艰苦付出表示衷心感谢,并希望以此为契机加强沟通与交流,争取进行更深层次的合作。随后,杨教授介绍了实验室的基本情况,希望通过与会专家的精彩报告和深入讨论,为计算机视觉前沿技术的研究与应用、计算机视觉与遥感等学科的融合带来重要的指引和启发。

报告信息

1、中科院自动化所王亮研究员:自然语言驱动的行人搜索。传统的行人搜索大多是单模态的,即给定一张包含行人的查询图像去检索同一个行人的其他图像。而自然语言驱动的行人搜索则是给定一段描述行人的自然语言,然后查询描述相同行人的图像。目前应用场景为多模态智能监控,未来可潜在应用到人机交互等更一般的场景下。报告人简要的回顾了自然语言驱动的行人搜索任务的定义和主要难点,并详细介绍了如何在跨模态语义不一致的基础上处理细粒度匹配和跨域学习等问题,最后讨论了未来可能的发展方向。

2、北京大学信息科学技术学院黄铁军教授:视达:超高速脉冲视觉芯片与系统。报告指出视觉信息最基本的形式是图像和视频,其根本缺陷是丢失了光的时域信息。黄教授组提出了一种物理意义更准确、形式更简洁的视觉形式,称为视达(vidar),采用脉冲序列表达光的变化过程,能够有效保留物理光流的时序信息,研制了速度相当于传统视频4万帧的视觉达片,采用脉冲神经网络开发了超高速目标检测跟踪系统,能够准确识别每秒40转的风扇上的文字。

3、北京大学林宙辰教授:基于偏微分算子的等变卷积。传统的卷积神经网络(CNN)模型只能对平移群等变,而不能对更大的群,如旋转群等变。针对这一问题,报告首先介绍了群等变卷积模型和近似等变卷积模型的研究现状;接着提出了一种基于偏微分算子的等变卷积,该等变卷积通过卷积和偏微分算子(PDO)之间的联系实现,可以轻松嵌入到已有的CNN模型中,并在离散域上保持良好的等变性;最后通过大量的实验来说明该方法在参数效率和性能上都优于传统CNN模型。

4、电子科技大学李宏亮教授:面向多实例分割的噪声标签学习。多实例分割近几年已经取得了显著的进展。现有方法性能大都建立在可靠且正确的类别标签之上,但在训练标签发生错误时,其对分割模型精度的影响以及相应解决方案仍然少有关注。研究发现由于类别之间存在的某些相似性和标注者有限的经验极容易导致错误的类别标签。本次报告重点讨论了在标签污染情况下如何解决多实例分割的问题。介绍了在实例分割的前景-背景任务和前景-实例任务中,如何使用不同的带噪类别标签的损失描述来提升模型的学习精度。该方法在多个噪声数据集上面取得了显著的分割效果。

圆桌讨论

四位专家的报告深入浅出,图文并茂、精彩纷呈。随后的圆桌论坛环节由杨必胜教授主持,各位专家围绕主持人提出的议题展开了热烈讨论,总结如下:

(1) 请问为什么要研究“多模态语义”?“多模态语义”对行人搜索主要影响在哪?

王亮老师:多模态语义对于传统的行人搜索来说能够提升机器和神经网络对于场景的理解,传统的最简单的行人搜索是以图搜图,并没有对图像场景进行理解,后来人们采用了学习的方式去感知场景,但只是从图像单模态这一个角度去考虑问题。自然语言驱动的行人搜索在增强行人搜索的性能的同时,还可以应用到多模态智能监控和人机交互中去,为监控和交互的场景提供更多可能性。

(2) 视达是当前非常具有前沿性和颠覆性的概念,请问视达对当前视觉信息处理颠覆性的影星在哪些方面?视达技术突破性发展的难点在哪里?

答:当前视达并没有特别的难点之处,只是人们已经习惯现有的算法模式,让大家开始适应另一种技术体系,还是需要一个过程。但是视达在技术上可以把之前很繁琐的算法和技术特征点转化成比较简单的形式,因此视达这个新框架的运用非常有利于成果产出。希望能在后续性能更优异的硬件的支持下(采用特定数据流的相机)加快发展,视达技术能够被大众广泛使用。

(3)请问林老师,您提出的“偏微分神经网络”除了对现有的神经网络框架在参数量减少上有很大的帮助外,还会有带来其他什么更好的影响呢?

答:偏微分神经网络架构可以替换所有的卷积神经网络,不仅可以减少参数、提升模型性能,还会对数据增广有很大的帮助。当前的数据增强运用旋转、镜像等几何方面的增强手段,而偏微分卷积神经网络可以完美的替代这些工作。

(4)请问李老师“多实例分割”在应用方面主要的挑战有哪些?

答:多实例分割的应用领域是相当广泛的,它的方法和策略后续可以很好的适用于检测等领域。当前的难点在于它的标签污染和场景有很大的关系。另外的难点在于如何将噪声标签和困难样本精准的区分开来,这个问题一直困扰着分类和分割。另外多实例分割的标签标注非常麻烦,能否用少量的数据(几张标注图片)做出大量的数据效果,这是值得我们思考的方向。让模型更加靠近人的学习过程,是我们要追求的目标。

(5)共同讨论:计算机视觉技术被运用到各种领域,那么人工智能技术在各个领域之间的交叉融合会产生怎么样的颠覆性变革和发展?”

答:1、计算机视觉技术在很多领域都产生了良好的应用效果,但仍然有着一定的安全漏洞和缺陷,比如人脸识别可以很容易被某种手段欺骗。因此安全问题不解决,就没办法得到更进一步的应用;其次视觉的发展必然朝着动态的方向发展,也会给视觉任务带来了极大的挑战。

2、在特殊的领域对视觉技术应当做出特殊的适应和改变,例如在脑科学方面,交叉融合的效果与我们预期还是有所差距。因此学科交叉应当因地制宜,不能为了交叉融合而交叉发展。

3、需要多从机器学习的角度把数据要求降低,这样一来计算机视觉能够更好的解决数据上的问题,从而更加有针对性进行交叉融合。

4、在数据交叉方面,各个领域的特性会影响计算机视觉的具体应用过程,隐私、安全、成本等问题都会成为影响计算机视觉技术进一步落地发展的重要原因。所以多领域的交叉融合想要带来颠覆性的变革,离不开对计算机视觉技术在领域内的应用挖掘和因地制宜。