首页 >> 新闻资讯 >> 正文

吴华意教授团队在大语言模型地理空间分析代码生成领域取得系列成果

2025-05-30
  • 阅读:


近日,吴华意教授团队在大语言模型地理空间分析代码生成领域取得系列研究成果,四篇研究论文分别发表于《International Journal of Applied Earth Observation and Geoinformation》(JAG,一区Top)、《Knowledge-Based Systems》(KBS,一区Top)、《Geo-Spatial Information Science》(GSIS,二区)与《International Journal of Digital Earth》(IJDE,二区)。该系列研究聚焦地理空间分析代码的自动生成,针对当前大语言模型在领域任务中的适应性问题,提出了一系列综合解决方案。该系列论文的第一作者是博士生侯树洋,桂志鹏教授、李锐教授、关雪峰教授、王建勋博士、博士生梁健源和张小璞、硕士生赵安琪和沈张骁、本科生矫皓月等参与了工作。

地理空间分析代码是指为地理空间分析建模所编写的可执行代码,包括在地理分析云服务平台(如Google Earth EngineArcGISPIE Engine等)上编写的代码以及使用专门的地学工具包(如PythonGDALArcPyRRasterTerra等)进行地理空间分析建模的代码。由于地理空间分析代码依赖平台特定的语法逻辑、算子设计、结构组合规则等,通用大语言模型在该领域的生成任务中常出现“编码幻觉”,表现为拒绝编码、语法错误、无效参数或逻辑不完整等。

针对上述问题,团队的工作主要有以下四个方面:(1)构建地学代码知识库:分别构建了基于统计挖掘的算子及算子组合知识语料库1和地理空间分析脚本功能语义知识语料库2;(2)提示工程与检索增强生成:通过结构化任务引导与外部知识库检索相结合,提高大语言模型生成地学代码的准确性,同时可为用户撰写代码提供智能代码提示和示例1,2;(3)地学代码生成大语言模型微调:推出首个面向地学代码生成的GeoCode-GPT大模型,缓解了大语言模型在地学专业化建模中由于语料不足而引发的编码幻觉问题3。(4)地学代码生成的编程链框架:提出Chain-of-programmingCoP)框架,将地学代码生成过程分为五阶段流程,提升生成代码的可执行性与结构清晰度4

其中,发表在《Geo-Spatial Information Science》的论文《GEE-OPs: an operator knowledge base for geospatial code generation on the Google Earth Engine platform powered by large language models》提出了一个面向 Google Earth EngineGEE)平台的算子知识库构建框架GEE-Ops,旨在提升大语言模型在地理空间代码生成任务中的性能。GEE-Ops基于18万余条GEE脚本与官方文档,采用抽象语法树与频繁项集挖掘方法,系统构建了包括算子语法知识表、算子关联频次知识表、算子频繁模式知识表和算子关系链知识表在内的四类结构化知识表。实验结果表明,该知识库构建框架在算子知识提取的准确率、召回率和F1值均超过90%,并在集成至检索增强生成流程后,使主流大预言模型性能提升20-30%。此外,通过消融实验验证了各类知识表在不同生成任务中的重要性,为地学垂直领域的大模型知识增强提供了可行路径。

1 GEE-Ops知识库构建框架图

 

发表在《Knowledge-Based Systems》期刊的论文《Geo-FuB: A method for constructing an Operator-Function knowledge base for geospatial code generation with large language models》提出了Geo-FuB框架,旨在构建面向地理空间代码生成任务的“算子-函数”知识库,以缓解大语言模型在缺乏领域知识支撑时产生的编码幻觉问题。Geo-FuB包括三个核心模块:Geo-FuSE结合Chain-of-Thought提示模板、TF-IDFt-SNEGMM方法,构建函数语义框架并实现三层次语义分类;Geo-FuST基于抽象语法树和Apriori算法,挖掘高频算子组合模式;Geo-FuM则通过大语言模型生成与模糊匹配算法,将算子组合映射至函数语义框架中。团队基于15.4万条GEE脚本构建了GEE-FuB知识库实例,其整体准确率达88.89%,降低了大语言模型幻觉现象的发生率。

2  Geo-FuB框架构建流程图

 

发表在《International Journal of Applied Earth Observation and Geoinformation》的论文《GeoCode-GPT: A large language model for geospatial code generation》提出并开源了首个面向地理空间代码生成的大语言模型GeoCode-GPT-7B,旨在提升大语言模型对地学代码生成所需知识的掌握能力。研究构建了预训练语料库GeoCode-PT、指令微调语料库GeoCode-SFT以及评估数据集GeoCode-Eval,涵盖27万余条地学脚本、算子条目、数据集知识和平台文档。在此基础上,采用QLoRALoRA技术对Code Llama-7B进行增量预训练与监督微调。同时,构建了覆盖多个任务维度的地理空间代码评估体系,实验结果表明,GeoCode-GPT在多个任务维度上明显优于主流通用模型。基于微调范式,本研究提出并验证了一种用于提升大语言模型在地理空间代码生成及相关任务中表现的方法,不仅拓展了其在地学领域的应用边界,也为其潜在能力的进一步探索奠定了基础。

3 GeoCode-GPT技术流程图

 

发表在《International Journal of Digital Earth》的论文《Chain-of-programming (CoP): empowering large language models for geospatial code generation task提出了一种面向地理空间代码生成任务的大语言模型编程链框架Chain-of-ProgrammingCoP),旨在缓解因任务描述不完整与专业语法知识不足等引发的“编码幻觉”问题。CoP将代码生成过程划分为需求分析、算法设计、代码实现、调试优化与注释增强五个阶段,并引入共享信息池、知识库检索机制与用户反馈机制,实现了无需模型微调的端到端自动生成。实验结果表明,CoP在逻辑清晰度、语法正确率与代码可执行性等指标上均优于现有主流方法,在多个典型任务中性能提升达3.0%48.8%。消融实验验证了三大机制对性能提升的关键作用,案例分析亦展示了其在本地与云端平台的广泛适用性。此外,研究构建并开源了原型系统,为地学领域实现从需求到代码的自动化提供了系统化路径,也为其他专业领域的大模型应用提供了通用参考框架。

4 CoP框架示意图

参考文献

1、  Hou, S., Liang, J., Zhao, A., & Wu, H. (2025). GEE-OPs: an operator knowledge base for geospatial code generation on the Google Earth Engine platform powered by large language models. Geo-Spatial Information Science, 1–22.

2、  Hou, S., Zhao, A., Liang, J., Shen, Z., & Wu, H. (2025). Geo-FuB: A method for constructing an Operator-Function knowledge base for geospatial code generation with large language models. Knowledge-Based Systems, 319, 113624.

3、  Hou, S., Shen, Z., Zhao, A., Liang, J., Gui, Z., Guan, X., Li, R., & Wu, H. (2025). GeoCode-GPT: A large language model for geospatial code generation. International Journal of Applied Earth Observation and Geoinformation, 138, 104456.

4、  Hou, S., Jiao, H., Shen, Z., Liang, J., Zhao, A., Zhang, X., … Wu, H. (2025). Chain-of-programming (CoP): empowering large language models for geospatial code generation task. International Journal of Digital Earth18(1).

5、  Liang, J., Hou, S., Zhao, A., Xu, Q., Xiang, L., Li, R., & Wu, H. (2025). Design and application of a semantic-driven geospatial modeling knowledge graph based on large language models. Geo-spatial Information Science, 1-20. https://doi.org/10.1080/10095020.2025.2483884

6、  Liang, J., Zhao, A., Hou, S., Jin, F., & Wu, H. (2024). A GPT-enhanced framework on knowledge extraction and reuse for geographic analysis models in Google Earth Engine. International Journal of Digital Earth17(1), 2398063.https://doi.org/10.1080/17538947.2024.2398063

7、  Hou S., Shen, Z., Wu, H., Liang, J., Jiao, H., Qing, Y., ... & Xiang, L. (2025). AutoGEEval: A Multimodal and Automated Framework for Geospatial Code Generation on GEE with Large Language Models. arXiv preprint arXiv:2505.12900. https://doi.org/10.48550/arXiv.2505.12900

 

相关链接

GEE-OPs相关链接

Github链接https://github.com/whuhsy/GeoCode-GPT

论文链接https://doi.org/10.1016/j.jag.2025.104456

Geo-FuB相关链接

Github链接 https://github.com/whuhsy/GEE-FuB

论文链接https://doi.org/10.1016/j.knosys.2025.113624

GeoCode-GPT相关链接

figshare链接https://figshare.com/s/6d42f6335f3f6254ea14

论文链接http://dx.doi.org/10.1080/10095020.2025.2505556

CoP相关链接

figshare链接https://figshare.com/s/a5f91d72fe299d8ccc31

论文链接https://doi.org/10.1080/17538947.2025.2509812

素材来源:Luojia-STC

材料整理:矫皓月

内容排版:矫皓月

欢迎关注珞珈时空计算

   公众号                    团队网站