【GeoScience Café】卢萌:空间数据挖掘与大数据

2018-01-28
  • 阅读:

主持:龚婧 摄影:么爽 摄像:陈必武 文字:么爽

>>>人物名片

卢萌,Esri中国大数据首席架构师,国内空间大数据先驱者之一,参与和主持过多个国家级和省部级大型项目。主要研究方向是传统GIS领域中的空间分析、空间统计、高级地理处理等技术和算法,行业性数据分析与挖掘,大数据项目架构、设计以及技术实现。目前在其个人技术博客和公众号(虾神daxialu)编写连载了国内第一套空间统计的系列入门简介《白话空间统计》,在互联网上的阅读量超过百万人次。

>>>报告现场

2018年1月14日19:30,卢萌做客GeoScience Café第186期学术交流活动。卢萌从数据挖掘讲起,结合自己在产业实践中的经验和教训,与大家分享了对空间大数据概念的理解。在报告中,卢萌由浅入深地介绍了大数据应用的当前任务和远景目标。本次活动吸引了武大信息学部各学院以及华师、地大各高校的老师、同学前来参加。在互动交流环节,大家针对报告内容纷纷提出自己的疑惑和思考,报告结束后,许多同学留下与嘉宾进行探讨和交流。

从数据挖掘说起

数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程。通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统和模式识别等诸多方法来实现上述目标。卢萌介绍说,数据挖掘并不是多么神秘,其最终的目的是直指核心。空间数据挖掘的应用广泛,如展示不同时段公交线路、解决交通中空驶率问题、分析UPS“开源节流”等等。

在空间领域,数据挖掘的本源是地理分析,主要包括视角、范围、足迹和人机,概括起来,即“在什么地方,发生了什么事情”,通过地理数据回溯事件本身。在解释地理信息时,卢萌通过举例向大家阐释了为何“任何相关或者不相关的数据,通过空间位置关联起来,都可以获得一套解决方案”。而地理分析的核心是空间统计学,空间概率、概率密度、不确定性和统计推断都是空间统计学中必不可少的基础概念。

▲卢萌从数据挖掘说起

大数据认知录

随后,卢萌介绍了数据的“前世今生”,包括目前世界范围内的几个重要的数据中心,并谈到了自己关于大数据的认识和思考。

现今人们对大数据的认识不全面,甚至并不准确,存在着“数据量大就是大数据”、“不用传统数据库就是大数据”、“用了Hadoop/spark就是大数据”、“多台机器并行用就是大数据”等观点。实际上关于大数据的认知已经超出了科技的范畴,更多地进入到了哲学的层面。针对数据的复杂性,大数据和传统数据有9个方面的差异 ,以“发送微博”这一日常化的行为举例说明了大数据和传统数据在存储位置方面的差异。他认为与互联网大数据切实相关的空间大数据有两大类:遥感影像及相应产品和LBS(基于位置的服务)信息,包括GPS记录数据、公共交通记录、电商物流消息、微博微信、足迹相片等在内的多种形式都是LBS信息。

▲大数据与传统数据

当空间分析遇上“大数据”

在实践中,卢萌遇到了许多关于空间分析的客户需求,对此,他从“资源数据、条件数据、中间数据”这三类数据的角度进行概括说明。从算法上来解答,空间分析的优化问题都是基于资源数据(待查数据)来展开的,而条件数据不可分且很少优化,当这两类数据结合起来时就会产生效率问题。解决效率问题目前有矩阵运算、多线程、分布式三套方案,其中,分布式是现今的主流思想,分布式运算的核心常被用来解决优化与效率问题。第三类数据是中间数据,主要考虑速度与精度的平衡策略,采用中间数据的好处是,不需要考虑每个点的信息,只需要考虑中间数据的分析结果,就可以提取区域性的有效信息。现实中应把所有任务分成“实时型”和“任务型”两大类,根据各自特点选择采用适合的解决办法。

▲针对优化与效率问题的主流解决方案

大数据中,我们能做什么?

在企业界,大数据战略的三个关键节点为系统轻载,应用闭环和数据变现。其中最重要的节点是系统轻载,系统轻载的必要性体现在两个方面:一方面,庞大的历史数据的在线,严重影响当前系统的效率、稳定性,极大地增加了维护成本和系统开销,特别是在电商、银行产业;另一方面,大部分收集到的历史数据,因为其存储的“不可(快速、方便)访问性”,变成了数据化石。对企业来说另一个重要的节点为应用闭环,即对数据进行收集,实际上在收集的任何过程中都可能会产生数据。比如用户访问任何一个网站时,在页面停留的时间、鼠标的每次点击都会被收集起来,作为分析的依据,进一步优化系统。最后一个节点为数据变现,是企业的远景目标,实现数据的经济价值和社会价值是企业的最终追求。

▲大数据战略的三个关键节点

大数据中的那些故事和思考

大数据在生活中的应用广泛,并且产生了许多有趣的故事,其中一个为归客与探索者的故事:一位意大利的教授在五万多辆家用轿车上安装GPS收集设备,用于研究两个城市间主要人群的交流情况,通过绘制的图了解到,该地区人群按出行与交通可分为“归客”和“探索者”,这也是人类行为意识归类的结果。这个发现在人类传播中影响重大,如疾病的传播等。但是,大数据有时也会给大众带来“陷阱”,在以亿计的数据中,几万甚至几十万数据的变化并不能通过分析识别出来,针对此,卢萌给出的总结是:大数据不是万能的,最强大的不是设备,而是人类的智慧。

>>>互动交流

观众A:请问卢老师,ESRI在未来的几年中是否有计划对华中地区科研者进行培训?您什么时候有第二次讲座活动?

卢萌:ESRI很看重对学术界和企业界的支持,目前,ESRI在华中地区的一个分公司就在武汉,他们对校园行非常关注。欢迎大家关注ESRI的公众号,他们会实时更新校园行活动以及区域用户大会的信息。其次,ESRI支持绝大部分客户的需要,包括单位和学校提出的交流的需求。关于第二次讲座的事情,只要大家有需要我都会尽量满足,这次很荣幸来到武汉大学,我的第一次直播就献给了武大,可能以后会开更多的课程讲坛等,或者也可以用直播类似的模式,欢迎大家都来支持我。

观众B:老师您好,我看了您很多的文章,有时帮助文档看不懂我就会去看您的文章,我想问您为什么能对这些工具理解得如此透彻并且写出那些精辟的话来的?

卢萌:我懂你的意思,你说的比较客气,其实想问的是,我怎么把这么严肃的话题写出比较逗的一种风格的。空间统计学科不太容易理解,特别是当你不是本专业的时候,一些基础名词可能都不懂,这就导致同学们入门困难。我在学习空间统计的时候,就想把大牛不屑于去写的,外行写不出来的东西完善起来,我的《白话空间统计》就是这么诞生的。我当不成将军没关系,我可以当一个优秀的新兵教官,让你们更快地成长起来,希望你们能超越我。

观众C:虾神您好,现在许多数据很难实现共享,一些数据甚至缺失,我想问怎么挖掘大数据的来源呢?

卢萌:这是一篇很大的文章,国家做共享数据平台已经做了很多年,据我所知,在奥运会之前,国家就已经在搭建共享数据平台,任何地方都有一个共享数据中心。但是大家都知道,一些单位将数据保密起来,各方实现共享有难度。数据获取难是因为大家只想获取数据而没有将数据返回给他们,实际上,我们合作并不是只获取数据,而是以联合课题的形式,你们(单位)提供数据,获得研究成果,我们提供方法进行服务,这种合作方式就简单很多。ESRI近几年和许多大学、机构做这种联合课题,我们只是参与者,许多单位是欢迎这种方式的。第二个就是数据缺失的问题,业界有很多方法去处理,大数据就是以“量”的问题去弥补“质”的缺失,欢迎大家看看我的《戏说大数据》这篇文章,里面有进一步的解释。

观众D:老师您好,请问中间数据是怎样获取的?

卢萌:我简单解释一下,中间数据指的是在保留一部分分析功能的情况下,把数据做一个统计抽稀。我举个简单的例子,沿着武大一公里范围内到底有多少农田,简单的做法就是在武大的边界线处做一个一公里的缓冲区,如果是问沿着京九线周边一公里有多少农田,这时再做缓冲区计算可能会花费几个小时。如果我将中国划分成几个网格,每个网格有一定(农田的)密度,问题就变成看看京九线通过哪些网格。实际上就是把统计数据归类到一个更大的范围里去,用牺牲精度的方法来提升速度。

▲ 卢萌老师做精彩报告

▲ 现场提问与交流

▲ 会后观众与嘉宾交流

▲嘉宾与GeoScience Café团队成员合影留念

(编辑:肖珊)

GeoScience Café以“谈笑间成就梦想”为口号,采取最自由的交流方式,每期邀请1-4位报告人,针对自己正在进行的研究展开报告。每周五晚7:30,在测绘遥感信息工程国家重点实验室四楼休闲厅举行当期活动。报告内容不仅涉及一切与测绘有关的学科内容及学术方法,如测绘基础学科、地理信息系统、摄影测量与遥感、全球定位系统、激光雷达技术、信号处理,还包括地理信息科学以外的话题,如法律和艺术等。让任何感兴趣的人——不仅是地理信息相关专业的师生,还包括其他专业的师生,甚至是文科生——都可以听取报告,并当场向主讲嘉宾提问或者会后与其交流。

更多精彩内容(报告PPT、新闻稿及下期活动消息等)敬请关注Geoscience Café群(QQ群号:532362856),微信公众号:GeoScienceCafe

欢迎扫描二维码: