【GeoScience Café】胡凯:用科学计量学探索科研之路

2018-01-15
  • 阅读:

主持:王源 摄影:曾宇媚 摄像:史祎琳 文字:曾宇媚

>>>人物名片

胡凯,测绘遥感信息工程国家重点实验室2013级博士生,已在Scientometrics、Plos One、Remote Sensing、武汉大学学报信息科学版等期刊上发表SCI检索论文4篇,EI检索论文1篇。研究兴趣包括地图服务内容质量评价、科学计量学与文本挖掘等。

>>>报告现场

2017年12月29日,测绘遥感信息工程国家重点实验室博士研究生胡凯做客GeoScience Café第183期学术交流活动。他从以科学计量学方法为核心,结合个人科研经验,讨论如何有效挖掘自身的潜能,找到适合自己的研究方向。在平时的科研生活中,如何打开脑洞、悦纳想法、理解导师的批判,并且将自己的想法形成易于接收、富有趣味、兼具实用价值的科研成果,他的分享让听众受益匪浅。

起源:为何使用科学计量学

胡凯师从吴华意教授,在最初选择研究方向时,胡凯选择了地理信息服务检测、评估、注册与共享。胡凯在此科研工作中主要是实现两个任务:一是将ENVI的基本操作用富客户端的方式实现,实现在线校遥感教学;二是维护和更新GeoSquare(信息服务共享平面)系统界面与功能,进行功能完善等。在完成上述内容的过程中,涉及到许多技术问题(各种开发工具、操作系统、编程语言等)需要解决,然而让胡凯感到困扰的不是繁杂的技术细节,而是难以产出高水平的论文成果。

经过总结反思,胡凯认为之前的工作难以形成更好的成果,存在以下几个问题:整个研究工作并非由自我兴趣驱动,遵循导师的要求进行实现,而缺乏独立思考;视野狭窄,对领域的整体了解不足,无法提炼出自身的工作贡献;没有时间去看相关的文献,而是一味跟进热点,缺乏对本领域特色问题的思考。

但从另一个角度来看,之前的科研工作中,胡凯也并非一无所获。对人机交互、教育、认知科学的研究学习,使其扩展了自身对相关研究领域的了解,激发了研究热情;在重复他人工作的过程中更深刻地理解了研究工作的基本流程;同时,培养了自身挖掘跨学科的创新思维,创新不是凭空想出来的想法,而是多个理论的结合。

也正是从这时起,胡凯开始了解科学计量学。从互联网下载大量的文献之间,是否存在潜在的联系?哪些主题或关键词的重要程度更高?哪些主题被引用次数更多?哪些主题以前是研究热点,现在是研究冷点?这些问题都属于科学计量学的范畴,它是关于科学的科学,本质上是一种知识挖掘,以文献的源数据为基础挖掘里面的信息。

利器:选用何种科学计量学软件

科学计量学的研究工作离不开相关软件的支持。目前,科学计量学的软件主要有BibExcel、CiteSpace、HistCite、SPSS、Pajek和Ucinet。胡凯对这六种软件进行了简单的对比分析,总结了它们的优缺点。

(1) BibExcel界面比较简单,不太适合出图;

(2) CiteSpace是目前最为成熟的软件,功能比较全面,适合出图;

(3) HistCite交互性好,网页形式多样;

(4) SPSS是传统的统计分析软件,功能完整

(5) Pajek采用SNA的方法进行分析

(6) Ucinet是最为流行的社交网络分析软件

考虑到功能的全面性与完整性,胡凯选择了CiteSpace。CiteSpace主要提供以下功能:基本文献计量,即使用作者、学校、期刊、关键词等关键信息描述一篇文献;Co-author合著网络,可描述文献作者之间的联系;Co-word共词网络,可用于评价一篇文献中两个关键词之间的联系,如果两个关键字出现在一篇文章中,则认为它们具有共词关系;Co-citation共被引网络,利用两篇文章被同一篇文章引用的信息,即共被引关系,可以进行共被引作者分析、共被引文献分析等;时间演化分析,考虑主题演化的时间点,可了解热点在不同时间上的演化趋势;学科级别分析,可从学科级别来分析领域与其他领域进行互动交流。

图1合著者分析

基于CiteSpace进行具体分析包括四个方面:数据、分析、组织和总结。首先在数据方面,要确定搜索条件,如主题词、时间跨度等,用于从众多文献中筛选出感兴趣的文献;其次是有取舍的选择分析结果,不同主题侧重点不同,如基本定量分析、结构化知识分析等;接着是围绕想突出表达的主题组织内容,如是否跨学科、演化的时间节点等;最后是总结,基于数据描述发现线索,从而理解内容并对现象进行总结,引申意义。使用CiteSpace进行科学计量学分析,能够快速客观的定位重要的作者、团体、期刊、研究主题、演化过程等;同时它也具备了理论基础和一定可视化的功能(复杂网络理论),作为分析的支撑。

历练:如何找到科学计量学的正确打开方式

科学计量学可以帮助研究人员快速有效地了解某一领域的研究现状,寻找开展工作的突破口,同时其本身也是一个研究领域,比如研究学科发展演化规律、寻找学术社区、发现关键问题等等。因此,使用科学计量学开展的研究工作一般可分为两类:一类是直接从科学计量学的角度做文章,深入分析某一领域的学术工作发展情况;另一类则是借助科学计量学对自身研究领域的现状进行定位,找到潜在创新点。

对于第一类科学计量学研究工作,胡凯先介绍了几个失败案例。在人机交互HCI计量可视化分析研究中,曾尝试投稿ScientometricsComputers in human behavior,结果被拒,原因在于论文的分析层次较浅,而且数据来源比较狭窄,只用了Web of Science中的文献数据,数据来源应该更广,比如ACM、dl等;在全球GIS教育现状分析研究中,曾尝试投稿Education in Higher EducationScientometrics,因审稿周期太长而放弃;在地理信息服务质量计量分析研究中,花费了两年多的精力撰写成文后依然没有被接收,原因是该论文的研究领域高度跨学科但未成具体体系,而且出图混乱,解读得不清晰;在心象地图计量可视化分析研究中,由于同时做计量分析方法扩展和内容分析,分析目标混乱,方法不够明确等原因也没有被接收。

对上述失败案例,胡凯进行了原因总结。在理论层面上,对科学计量学的理论探索不够深入,只是懂得如何利用科学计量学工具进行实验,而没有探索其背后的逻辑问题等;对学科内容分析停留在表面,没有深入理解。在实践层面上,对内容的组织过于粗糙,对不同分析之间的关系不够明确,导致论文缺少层次感,如同记流水账一般。

随后胡凯介绍了两个围绕科学计量学本身开展的成功案例。第一个案例是其师兄所做的关于社区演化分析的工作。该项工作不仅具有扎实的理论基础,即利用复杂网络理论与社区探测方法,探索了共被引关系与合著者关系的本质差异,同时也在实践过程中仔细阅读了大量文献,并与专家进行了深入讨论,搜集到许多文献所缺少的信息。最后以Annals of the Association of American Geographers期刊为例,讲述了一个关于社区演化分析的故事,被Scientometrics接收。

图2社区演化分析研究

第二个成功案例是胡凯主导开展的关于夜光遥感计量可视化分析研究工作。该项工作以社区探测理论、Path Finder Network & Minimum Spanning Tree为理论基础,进行了基本量化分析、结构知识分析、知识演化分析和学科级别分析,对夜光遥感相关研究进行了可视化计量分析,最后被Remote Sensing接收。

图3学科级别分析

在上述案例基础上,胡凯对有兴趣撰写科学计量学方面论文的同学提出了一些建议。(1)要选择合适的搜索关键词、搜索条件;(2)论文中的分析方法要有亮点,有理有据,说明采用此分析方法的必要性以及原理;(3)要围绕主题组织内容,不同研究主题的分析结果是多样的,要突出论文重点;(4)讲故事,与领域专家沟通,文献计量只是提供线索,还需要更深入了解领域的内容,精读相关的论文内容并进行总结。

对于第二类科学计量学研究工作,胡凯从自己的研究角度出发,通过三个成功案例讲述了如何结合研究小组中的研究方向进行发散。

(1)思考可用性的引申与本领域的结合点。胡凯将之前所做的GeoSquare维护工作与人机交互计量可视化分析工作结合,从人机交互的角度对整个系统进行了思考:GeoSquare系统是否好用?数据是否方便检索?于是胡凯从传统的基于文本的WMS检索出发,拓展到结合图像检索和HCI反馈数据的WMS检索方法,有效提高了WMS检索的准确度。该项工作发表于Plos One。

图4结合用户反馈的WMS检索流程

(2)结合Word2Vec语义与科学计量领域中关键词评价开展工作。在地理信息服务质量计量分析研究中,胡凯曾经花费了许多精力进行总结梳理。如今回头来看,胡凯发现对于地理信息服务质量这样的小众研究领域,很难只依靠频率来提取关键词。因此,胡凯以传统的词频或网络评价为基础,引入了计算机领域内的Word2Vec语义,并结合前景背景,更有效地提取出具有领域特色的关键词。该项工作发表于Scientometrics

(3)地理鬼城与语义空间中鬼城结合分析。在过去所做心象地图计量可视化分析的基础上,胡凯对心象地图进行了发散和扩展,从传统的无标注时序Co-word网络转化成语义地图结合地理隐喻进行分析,将地理空间的Ghost City类比到语义空间,引起了期刊编辑的兴趣,最后被Scientometrics接收。

点睛:科学计量学研究心得

讲座最后,胡凯从他研究科学计量学的经历中,总结了三条建议:

(1) Create and evaluate should be departed。在进行科研写作时,要将创造和评估分开。对于任何一个问题的思考,可以将碎片化、无逻辑、跳跃式的想法写下来。同时要学会发散思维,悦纳自己的想法,请别人评价或者自评一开始提出的想法的可行性。

(2) Conduct a Movie not only write a report。在进行科研论文写作时,不仅是写一篇论文,更像是导演一部电影。思考写作的动机是什么,在面对乱糟糟的内容时,尝试从混乱中找出逻辑。一篇成功的科研论文,既要表达清楚自己的想法和观点,同时也要让观众理解。在面对批判时,要正确理解批判存在的合理性,学会合理面对,同时还要反问自己,论文中这部分是否有必要性。

(3)紧跟热点与挖掘特色并讲给同学听。在论文投稿之前,首先要了解期刊的偏好,侧重于哪些主题;其次是调研期刊的热点,热点问题能够吸引众人的关注;最后,论文要有自己的特色,这也是科研论文被接收的必要条件。在科研生活中,与老师、同学的沟通交流是必不可少的,当有新想法时,多与同学交流,看是否有可行性。

>>>互动交流

观众A您好!我有个问题想请教一下,中科院的数据库不在CiteSpace引用里面,但它收录了中国很多前沿的研究,所以利用CiteSpace分析得到的结果能不能代表最新的研究成果?还是说使用CiteSpace只是为了好发论文?谢谢!

胡凯:在数据来源方面我选取了Web of ScienceScopus,它们代表着主流的数据分区。像中科院的数据库是基于Web of Science做的二次分类,所以Web of Science有一个基本的GCR,而中科院是在这个基础上对期刊进行了二次分区。

观众A为了保护知识产权,中科院的论文一般是不开放的,那么CiteSpace能否检索到中科院数据库中的论文题目或信息?谢谢!

胡凯:除非是涉及到国家机密问题,不然只要是公共发表的论文,首选肯定是Web of Science数据库。只要是被大家认可的,都可以在Web of Science检索到的。

观众B我想问一下师兄,在我做综述的时候如何运用科学计量分析呢?另外,合著者社区是说那些合著者来自于不同的社区还是说他们的研究对象是不同的社区?如何通过CiteSpace找到哪些文章需要精读?哪些只需要泛读?谢谢!

胡凯:由于时间关系,刚刚我没有对合著者社区概念展开来讲。合著者社区实际上是一个虚拟的社区,以文章为圆心,挖掘出哪些作者之间有合作。合著者社区不同于共词网络和共被引网络,因为后者是一种知识合作,研究同一个主题,而合著者关系在现实生活中是有交集的,如导师与学生,同门师兄弟之间的关系等,它可以反映出一个更稳定的社会关系。

观众C您好,我有一个问题想请教您,CiteSpace作为计量分析工具,分析结果的好坏完全取决于输入的数据吗?谢谢!

胡凯:输入数据的好坏直接决定研究有没有意义,因此检索条件非常重要,这些期刊的编辑也会非常严格地要求你限定检索条件。

观众C刚刚所说的中科院论文是指能从知网中检索到的论文吗?现在我们分析的文章大多是英文文章,对于中国学者在GIS领域具有代表性的期刊,如测绘学报、武大学报等中文期刊上发表的文章要如何分析?

胡凯:刚才所说的中科院的文章是指中科院的SCI分区。CiteSpace分析也可以分析知网的数据,但分析不全面,因为知网的文章格式不标准,没法轻易使用引用分析。

观众C在以后的分析中,是中文或英文的文章单独做分析,还是可以将两者结合在一起做分析呢?数据能不能融合在一起?在限定检索条件时,关键词使用了缩写,搜出来的文章是否会有缺失?

胡凯:目前来说只能分开单独做分析,还没有数据融合这方面的研究。在限定检索条件时,我使用缩写加全称这种形式,尽量减少误差。根据关键词搜出来的文章是会有缺失的。因为在使用主题去搜索时,关键词存在语意上的关联。所以涉及到语意问题,这也是它的局限性。

观众C在数据量方面,您觉得文章的数量在多少篇合适呢?对数据量有没有要求?在小众领域里怎么分析?

胡凯:针对小众领域数据量过小这点,前面我介绍了可以使用如何提取关键词,如何基于关键词进行分析等方法来弥补。像夜光遥感分析研究中我只有136篇在Remote Sensing上发表的最核心的文章,但在进行引文分析时数据量会大大增加。数据量小在分析时也会更集中。

图5胡凯作精彩报告

图6观众认真听讲

图7观众提问

图8观众与胡凯进行交流

图9胡凯(左五)与GeoScience Café团队成员合影留念

(编辑:肖珊)

GeoScience Café以“谈笑间成就梦想”为口号,采取最自由的交流方式,每期邀请1-4位报告人,针对自己正在进行的研究展开报告。每周五晚7:30,在测绘遥感信息工程国家重点实验室四楼休闲厅举行当期活动。报告内容不仅涉及一切与测绘有关的学科内容及学术方法,如测绘基础学科、地理信息系统、摄影测量与遥感、全球定位系统、激光雷达技术、信号处理,还包括地理信息科学以外的话题,如法律和艺术等。让任何感兴趣的人——不仅是地理信息相关专业的师生,还包括其他专业的师生,甚至是文科生——都可以听取报告,并当场向主讲嘉宾提问或者会后与其交流。

更多精彩内容(报告PPT、新闻稿及下期活动消息等)敬请关注Geoscience Café群(QQ群号:50605638),微信公众号:GeoScienceCafe

欢迎扫描二维码: