李明:基于三维模型与图像的智能手机视觉定位技术
核心提示:随着经济和科技的发展,传统的室外定位技术已经无法满足高精度的室内定位需求,视觉定位技术作为室内导航应用的关键,在不同场景下的定位技术应用还存在诸多挑战。本报告基于丰富的研究与实验,向我们展示了室内定位与室外定位的差异和技术支撑,围绕室内定位技术的发展进行了视觉定位思路的探讨,分析了基于普通智能手机相机、Tango智能手机RGB-D相机、编码点、单目SLAM的智能手机和惯导+图像紧耦合等不同视觉定位方案的原理和方法,探讨了视觉定位的发展前景和广泛应用。
主持:纪艳华 摄影:彭宏睿、龚婧 文字:韦安娜
>>>人物名片
李明,武汉大学助理研究员、重点博士后。发表SCI/EI等论文30余篇,2篇获全国优秀论文奖,1篇获中国精品科技期刊顶尖学术论文奖。曾荣获国家奖学金、武大优秀研究生和微软航测等奖学金与荣誉。担任Journal of Navigation、Sensors等国际期刊审稿人,多个国际学术会议技术委员会委员。研究兴趣为机器视觉与摄影测量及其应用。
>>>报告现场
11月16日晚7点,李明博士做客GeoScience Café第211期学术交流活动。李明介绍了自己博士期间的研究经历和成果,结合现实生活中经济建设等需求分析了室内定位技术的发展和应用,着重就不同应用场景下视觉定位方案的原理和方法进行了阐述。
【研究背景】
人类目前正被人工智能与新工业革命的美好前景鼓舞,不断进入科学技术层次创新与应用时代。机器视觉与摄影测量作为它们的基础技术之一,正不断推进工业4.0智能制造、无人机器智能化、人类生活智慧化的发展。视觉定位作为以相机传感器为核心之一的汽车自动驾驶、机器人精准控制与感知、室内人机导航与AR体验等诸多应用的关键,正不断取得研究突破与深度应用。
李明首先结合生活实例向我们介绍了GPS和室内定位的不同应用和区别,表明了室内定位遍布我们工作生活的每个角落,有着庞大的需求和应用。然后分析了室外定位和室内定位的不同技术支撑,室内定位主要有Wifi、蓝牙、编码点、超声波、磁场等技术手段。
【发展历程】
在介绍完室内室内定位技术的起源之后,李明开始普及室内定位的发展历程:
第一阶段:利用专用的信号和设备进行室内定位;
第二阶段:利用搭载Wifi的手机进行室内定位;
第三阶段:利用智能手机搭载的众多传感器进行室内定位;
第四阶段:无线电与计算机视觉相结合的室内定位技术。
【视觉定位方案与设计】
通过介绍室内定位的发展,李明引出了他报告的主要内容——视觉定位方案与设计探讨。
1、基于普通智能手机的视觉定位方案
客户端:用户拍摄定位影像、影像传输、定位显示
服务端:物方特征库匹配、计算影像外方位元素
2、基于单目SLAM 的智能手机的视觉定位方案
核心工作:跟踪——建图——闭环
跟踪:从图像中提取特征,根据上一帧图像估计现在帧的姿态;若已有全局地图,则根据全局地图定位初始姿态,然后根据局部地图则进行姿态优化。
闭环:分为闭环检测和校正。一般先用WOB进行检测,然后通过相似变换建立图优化模型进行校正。
3、基于Tango 智能手机RGB-D相机的室内视觉定位参考方案
图2 基于Tango 智能手机RGB-D相机的室内视觉定位参考方案
4、基于编码点的室内视觉定位参考方案
以优化的标志点作为定位编码,通过获取布置在室内场景的图像进行视觉定位。为了增加编码点的显著性,在设计编码点的时候增加了色相 (Hue)约束、共线约束、交比限制,使得编码点在杂乱的场景下依然保持鲁棒性特性。通过基于相册图片和现场随意拍摄图片或视频流的实时手机定位实验,可以发现本定位算法能识别出几乎所有的编码点,并对其进行稳定快速的定位,且定位精度最优可达到10cm以内。
【总结和展望】
视觉定位作为室内定位的关键技术手段,许多设计方案已经得到试验和应用。对于不同应用场景下的视觉定位方案还存在诸多挑战,这是当前国际学术界和产业界的共同难题,如何达到在不同场景能够进行高可用高精度的视觉定位效果是未来研究的主要方向和目标。
>>>互动交流
观众A:博士您好,请问您在做单张图像的视觉定位时,是否以及提前形成了该点的场景?这样的话相当于一个模板匹配,效率会特别低,这种时候怎么处理才能快速找到定位点的位置?
李明:原理是这样的,大概方法是建立一个词袋库,词袋库有一定的方法。库很大的时候,可以用Wifi先进行粗略定位,然后再结合词袋模型进行匹配。
观众A:还有一个问题,您之前说您在博士论文时做无像控的大比例测图,那没有像控的话点是怎么做的校正?
李明:这种方法是把地面点放到空中,通过GPS差分将POS点作为约束控制点,这种方法在高山、城市等高差较大的地方可以节省人工布置控制点的时间,还可以提高精度,这也是免像控可以做1:500测图的原因。
观众B:博士您好,您刚刚在做单张相片的定位时,是通过相片与相片的匹配,后方交会确定相片姿态,那您在做Tango手机定位的时候也是这个原理吗?
李明:是的,无论Tango手机还是普通图像,像素和特征描述是都有的,通过图像匹配可以知道相邻点之间的关系,这就是为什么在Tango手机定位里也要用到图像信息,它获得的点和相片关联起来,关键是Tango手机直接获得了深度信息,定位结果精确更高、速度更快。
观众B:您刚刚说您拿Tango做的APP比原生的APP效果要好,这个是做了怎么样的处理?
李明:最重要的是在定位三维点云恢复的时候用优化策略将三维点精度提高,还有对很多路标点空洞也会进行修复。
观众C:博士您好,我有两个问题想请教一下,第一个也是关于Tango,据我所知,它是将RGB相机和惯导结合起来做了一个滤波处理,那您的这个算法是纯RGB还是也加入了惯导呢?另外一个问题是,您目前有没有做深度学习和定位相结合的东西?深圳大学有一个项目是利用深度学习的卷积神经网络来获取相机外参这样做的定位,您对这方面有什么看法?
李明:我们这个算法也加了惯导,加了惯导效果才会更好。至于深度学习和定位相结合,关于相机外参的获取,有许多开源的方法做得不错,有时候应用卷积神经网络反而会复杂。深度学习结合定位思路是很好的,但是目前它成本较高,迁移性也不强,实用性不够。
观众D:博士您好,我感觉未来AR技术会大幅改变我们的生活,现在AR技术是什么在限制着它的应用?
李明:AR和VR不同,VR是虚拟的,AR增强现实。AR重点不是要去构建一个真实的纹理模型,而是只需要快速将大致场景空间恢复,然后将虚拟的东西叠加到现实的场景中去,最后再显示出来。当前原因是设备成本比较高限制了它的快速发展,如果硬件更轻便、能耗更低就应该能大力普及了。
图3 嘉宾(右二)与GeoScience Cafe成员合影