【GeoScience Café】高德地图数据生产前沿技术分享

2018-04-05
  • 阅读:

主持:李茹摄影:赵颖怡文字:纪艳华,王璟琦

>>>人物名片

李艳霞,高德地图——数据中心总经理、资深专家,数据中心生产总负责人,2001年毕业于武汉大学。

王拯,高德地图——数据工艺专家,负责数据中心POI生产自动化项目,2012年毕业于武汉大学遥感信息工程学院。

刘章,高德地图——资深数据产品经理,负责数据中心道路生产自动化项目,2016年毕业于武汉大学测绘遥感信息工程国家重点实验室。

>>>报告现场

随着移动互联网的发展,人们对于电子地图数据与服务的需求与日俱增,测绘遥感与GIS技术在移动互联网行业中的应用日益广泛。2018年3月30日,来自高德地图的生产技术团队做客GeoScience Café第189期学术交流活动,为我们解读高德地图的数据生态体系及其数据生产自动化技术,让大家受益匪浅。

图1报告现场

李艳霞——活数据,活地图

图2李艳霞在做报告

李艳霞师姐主要介绍了高德地图数据生产的全貌。随着技术的发展和用户需求的新增,地图数据采集生产方式不断演进。根据用户对动态数据需求的变化,数据生产由人工采集的传统方式,逐渐加入交通路况、动态事件等大数据的采集。从数据采集到地图发布的过程中,现实世界也在不断的发生变化,导致了地图信息的滞后性。而用户需要获得实时变化的地理信息,这给地图数据服务提出了准确和及时的需求。面对用户的需求与数据采集的挑战,高德地图的解决方案是做“活数据”,只有做“活数据”才会有“活应用”。

图3刘章在做报告

刘章师兄主要介绍了道路生产自动化的相关技术。道路生产的自动化,首先要有资料库,获得资料库中的数据后,经过图片切分、图像识别和位置识别、图像差分和位置差分、一次融合、逻辑检查等过程,实现道路生产自动化。如果图像差分和内容差分识别的信息可信度不高时,会有人工作业。

除此图片内容的挖掘之外,刘章还介绍了利用用户提供的GPS数据进行轨迹挖掘,一种是基于流量和速度的挖掘,另一种是基于轨迹的挖掘。除此之外,刘章还介绍了文本挖掘,利用语义识别方法从文本中提取结构化的属性信息。

王拯——POI生产自动化

图4 王拯在做报告

王拯师兄主要介绍了POI(Points of Interest)的分化技术。POI自动化生产可以概括为四个环节,从排重、识别、滤噪和挂接。

排重是将用户拍摄的视频按照一秒一帧的频率切分成N多张重叠度很高的图片,因此要将重复的图片选优并删除重复的图片。将图像排重后,就要对图像进行识别,也就是对文字进行识别,原理与道路识别类似。滤噪是剔除识别出的非POI。挂接是将POI关联到地图数据中。

最后王拯对高德地图POI自动识别的未来发展做了展望,高德地图不仅要将数据做到足够精确,同时也要能够实时对图像进行预报,并且能够精准的还原位置。

>>>互动交流

图5 观众提问

图6 互动交流

观众A您好,我有两个问题,第一个是高光谱遥感以及光学遥感在高德地图中的有哪些具体应用?第二个问题是高德地图在与阿里合作的过程中,员工具体是怎样合作的?

李艳霞:关于第一个问题,高德地图所有的技术或者专业都是服务于地图相关的业务,所以我们并不对遥感数据本身做处理,当然会用到一些影像数据,比如我们会通过遥感影像的自动识别去提取地图相关的一些要素。关于第二个问题,高德地图就是阿里巴巴的一份子,高德地图属于投资并购公司。

观众B你好,我想问一个与高德地图APP相关的问题,高德地图APP中有一个用户上报功能,用户可以上报交通事故、道路施工,还可以新增地点等。我想问一下,高德地图对于用户上报的内容是怎么处理的?怎么取辨别上报内容的真假?

刘章:对于用户上报的信息是否准确,后端处理流程分为两个核心模块,第一模块是识别定位,就是用户上报内容是什么以及位置在哪里,第二模块是拿着识别定位信息去做情报的验证,即并不是接收到上报立马就改,我们还会参考其他信息去验证是否发生了变化。

观众B在某个地方上报问题,是上报的数量达到一定的阈值还是只要上报就会处理呢?

刘章:本着为用户解决问题的原则,只要用户上报问题,我们都会解决。关于你提出的阈值涉及到后端的一些处理效益及策略问题,因为单个用户上报可能他的认识不准确,如果有两个三个或更多的人上报,那么它的准确性就越高,所以在后端处理的时候会再考虑这种环节。

观众C对于地图来说,它的核心功能是为人们提供准确的地理信息,我想知道对于高德来说,它的地图信息的更新频率是怎样的?举个例子来说,武汉大学正门有一家店——娇兰佳人,我在三月份去的时候那个店已经关门了,但是现在地图上还有。

王拯:因为大部分区域是面向用户的,对于用户不经常去的区域,我们的更新速度会相对慢一些,尤其是实地去获取影像的本身成本比较高,所以综合考虑我们对于图像采集部分的更新频率不会特别高。POI是存在用户活跃度的,我们现在还可以通过一些用户的行为能挖掘出这个POI是否已经关门了,但是并不是所有的数据每天都可以访问到。

李艳霞:我们在做地图时,特别喜欢用更新频率来描述对地图的更新力度,但实际上目前包括我们刚才介绍的所有技术手段,关于实采,我们是按照任务价值、用户活跃度来下发采集,所以已经不是一个月两个月这样的概念,而是随时有问题,随时下发,随时回收这样的方式。除了实采手段外,刚才介绍了大数据挖掘、运单挖掘等这样的手段每天也在处理这个问题。

观众D:第一个问题是关于路径规划,比如现在有一百个用户都要从A点到B点,并同时发送路径规划请求,我们的后台的如何响应的?如果一百个用户都是同样的路径,这势必会造成拥堵。第二个问题是我发现高德地图APP上新增了一个“探路”的功能,这个功能是不是有助于路径规划?

李艳霞:高德地图最开始对于从A点到B点的请求,是按照一套规则进行响应,提供的路径是一样的。后来在我们的路径规划中考虑了路况信息、拥堵情况、部分用户的驾驶习惯等,以后还会增加更多的因素。高德地图对于路线规划的问题,希望实现千人千面,能实现车辆的调度,我们正在努力实现。

观众E户外的POI采集我们有采集车,现在地图上已经有了室内的像商场的内部导航,我想问一下商场内部的POI点是怎样采集的?还有一个问题,很多情况下,我们将汽车停在停车场中,虽然知道停车位号,但是比较复杂的大型停车场取车的时候很难找到车在哪,请问你们有没有考虑这个问题?

李艳霞:我们本身有采集室内地图,以及数据积累和数据挖掘,这些手段都在使用。停车场里面有一个最重要的问题在于信号本身,我们之前做过地下停车位的信息采集,但是现在的手机应用上面很难支持我们在停车场内部去做这个导航,因为这个与定位技术有非常大的关联性,所以我们今年重点解决的是关于应用的问题。

观众F:第一个从数据到地图的过程当中高德是大量采用人力还是都已经采取了比较自动化的方案。第二个问题是关于POI的,比如市政增加了一个公共卫生间,这种设施不是很明显,如果有一个用户反馈这个地方增加了一个公共卫生间,你们会按照什么原则去验证?

李艳霞:第一个问题是高德内部目前有一个项目,直接从现在的存储内部的存储规格到编译上线,整个过程没有人工参与,目前地图的渲染也是动态渲染,是全自动化的。

王拯:关于第二个问题,对于较小型的POI点,用户反馈地图中缺失数据。针对这个问题,首先会拆分这种场景,比如根据应用后台报出的位置来判定这名用户是否在当地进行的反馈,另外我们鼓励用户反馈时附上照片,这样的话才会认为这个反馈是可信的。如果这名用户并不在旁边且没有照片,我们就需要利用大数据。

图 7嘉宾与GeoScience Café团队成员合影留念

GeoScience Café谈笑间成就梦想为口号,采取最自由的交流方式,每期邀请1-4位报告人,针对自己正在进行的研究展开报告。每周五晚7:30,在测绘遥感信息工程国家重点实验室四楼休闲厅举行当期活动。报告内容不仅涉及一切与测绘有关的学科内容及学术方法,如测绘基础学科、地理信息系统、摄影测量与遥感、全球定位系统、激光雷达技术、信号处理,还包括地理信息科学以外的话题,如法律和艺术等。让任何感兴趣的人——不仅是地理信息相关专业的师生,还包括其他专业的师生,甚至是文科生——都可以听取报告,并当场向主讲嘉宾提问或者会后与其交流。

更多精彩内容(报告PPT、新闻稿及下期活动消息等)敬请关注Geoscience Café(QQ群号:532362856),微信公众号:GeoScienceCafe

欢迎扫描二维码: