来自上海交通大学的团队推出一个70亿参数的地球科学大语言模型名叫K2。K2是基于初代LLaMA-7B模型,并使用了100万余篇地球科学文献以及和地球科学相关的维基百科的文章进行更进一步的预训练。同时设计了第一个地球科学领域的微调数据集GeoSignal,包含文章内容、类别、参考文献、提到的实体等,适用于解决回答地球科学方面的专业问题、完成命名实体提取、地学概念上下位关系判断等任务。
31212138-2023-08-31T13:21:55.png
图:地球科学领域大语言模型K2的构建流程图。
区别于大多数垂直领域的模型训练的思路,该团队通过独特的数据重构技术生成指令微调的数据,而不仅仅是利用self-instruct等方法,利用ChatGPT生成的数据来进行指令数据的采集。
同时为了评估模型在地学知识的理解和应用方面的能力,他们还建立了第一个地球科学语言模型的基准GeoBenchmark,它主要由中国的地理、地质学的考研题目和美国的地理、地质与环境科学的AP考试题目组成。有意思的是,ChatGPT和GPT4在地学相关的AP考试上的分数并没有随着GPT4的技术报告一同给出,留给大家十足的想象空间。
在大模型纷争的时代,大多数垂直领域的大模型训练都有统一的范式,那就是先进行专业领域语料的预训练,再进行指令微调。但是大多数的模型在预训练阶段使用的数据并不透明,指令微调的数据更多的是蒸馏ChatGPT来抑或进行高价的人工标注。但是K2针对地学这一个垂直领域给出了一套技术路线,从计算机角度通过数据的整合和提炼来进行学科交叉的知识工程和模型构建,这是K2之于数据挖掘和自然语言领域的贡献之一。
针对预训练数据,该团队基于Grobid,PyPDF2和DeepShovel (https://deepshovel.deep-time.org/) 等工具开发了一套数据清洗工具包。

DeepShovel:是一款辅助地学科学家进行知识抽取的文献标注平台,也陆续推广至所有的学术领域。目前DeepShovel以及辅助超过一百家地球科学的科研单位。

其中,每一篇地学开放获取(Open Access)的论文都会被转化成对于计算机来说可读性极高的Markdown格式的文本,有着多级标题的区分、公式和引用的特殊词元(Special Token)以及图片和表格的注释文本也被特殊词元保存下来。经过一系列的操作,累计获取了5.5B词元(Tokens)的文本语料。目前他们正在构建更大的学术资源的语料,旨在进行更大规模的学术大模型的训练。

针对指令微调数据,该团队通过多个自主研发平台上的数据融合,通过数据重构,将具备一定结构化的网页进行了解构,并重组成一套knowledge-intensive的数据。在这个过程中,上海交通大学团队集中团队内部所有的平台课题组的力量,进行数据的充分重组,从而构建了一套独一无二的具有特定地学任务的知识性指令微调数据集。
据论文描述,上海交通大学团队在过去的3年,相应DDE大科学计划(https://deep-time.org/)的号召,完成研发的地学数据和功能平台共4个。
Deep literature
https://ddescholar.acemap.info/
致力于打造地学领域的DBLP,将所有的地学学术文献进行整合并依托这个平台进行一系列的数据挖掘和学者画像的分析。
GAKG
https://gakg.acemap.info/
致力于打造地学领域的多模态学术知识图谱,对所有的地学学术文献进行数据的挖掘,抽取文献之间的关联关系、地学知识点之间的上下位等语义关系以及地学文献内的知识挖掘。对外提供了语义查询和文本搜索系统,也是CIKM历史上第一篇地球科学相关的科研文章。GAKG对外也提供了数据下载、语义查询和文本搜索的平台。同时,GAKG的技术工作也发表在CIKM上,也是一篇计算机科学领域与地球科学交叉研究的科研文章。
GSO
https://gso.acemap.info/
是利用机器生成人工修正的地学知识树系统,用上下位关系维护了地学知识点之间的关联,这给大模型提供了很好的地学知识链接预测的监督信号。
DataExpo
https://dataexpo.deep-time.org/
通过关键词检索以及文本分类归纳了所有的地学数据集。

这些平台承载着地学的知识元数据,如果通过人工整合平台底层的数据逻辑,将可以很快的获得地学知识之间关联关系,以及一定的任务驱动的数据集。
基于DDE Scholar可以获得地学相关的科研文献,并且通过其中OA的文献的下载链接,可以下载下来构建预训练语料,通过GAKG,可以构建实体抽取的数据集,语义上下位词的知识判断的数据集。通过DeepShovel一直以来的数据积累,可以构建特定任务的地学问答系统,以及文献中表格抽取的数据集。通过DataExpo,可以得到数据集相关的知识文本,也可以一定程度上类似科研文献一般,提供地学知识的监督信号。
当然,一定程度上的蒸馏ChatGPT确实能辅助模型向ChatGPT靠拢,因此针对不同的地学领域,K2还集成了一套基于Self-instruct的指令微调数据集,并且在ChatGPT生成之后也通过了专业地学同事的审核,进而得到高质量的监督效果。

最后上海交通大学团队通过人工和机器相结合的方法,对这些指令进行清洗,并最后构成了一套39k大小的地学知识性指令微调数据集。在这个数据集中,蒸馏ChatGPT的占比并不高,因为在交大团队看来这类数据仅仅只是QA任务的一种监督,并不能很好的泛化到其他更难的任务中。
最后,上海交通大学团队聘请了专业的地学翻译专家,将近几年的地学的考研题进行了翻译,并结合美国高中的AP考试中的地学相关的科目,构建了GeoBenchmark,与同等大小的模型相比,K2以较少的数据成本,最终得到了如下结果:

除此之外,该团队还发现,在微调K2的过程中,也是比较有技巧的,如果只利用知识性的指令微调数据,模型并不能达到最好的效果,甚至也只比利用alpaca这类开源的和地球科学无关的指令微调数据达到的效果好一些。但是令人激动的是,如果先利用alpaca这类指令微调数据进行微调,再利用知识性指令微调数据进行更进一步的训练,达到的效果则更优秀。

目前尚且不知道这个特性是不是只在地球科学领域存在,因为这种现象类似于,先让一个小朋友学会说人话,再学会说行话。面对晦涩难懂的学科,多一条这样的思路,不失为一种方法。

这个现象是否广泛存在呢,答案是很有可能的,在一次由乔治亚大学的买庚辰教授组织的GeoAI的研讨会上,来自乔治亚大学和哈佛大学的团队也在训练radiology领域的生成式模型的过程中也发现了这一现象。充分说明,要想成为专家,要先学会“做人”。
在整个过程中,K2的训练和研发可谓是坎坷曲折,由于领域壁垒较高,因此很难直接获得专家的标注,如果从需求出发,地学领域的需求也很难直接转化为计算机领域的任务。最后,这款地学领域的大模型还是从成功地从计算机角度出发训练完成了,给后续的地学领域的大模型一定的参考意义。
目前看来,在国际社区中,K2的应用前景非常广阔。例如,它可以用于自然语言理解、结合GAKG进行信息检索增强的QA任务和文本生成等任务。此外,在未来K2还可以用于地球科学领域的知识图谱构建和地球科学文献的自动化分析等方面。在地学类资讯公司的社交圈子里,已经广泛讨论了该团队这一令人激动的工作。例如:
1.https://paulhcleverley.com/2023/08/03/worlds-first-geoscience-large-language-model/
2.https://www.linkedin.com/posts/paulhcleverley_geosciences-largelanguagemodels-artificialintelligence-activity-7093001271632101376-jzAc

经过本文的陈述,计算机赋予地学新的生命,地学赋予计算机新的使命。我们相信,会有越来越多的真正愿意奉献地学的计算机学科专家投入时间,以及真正愿意沉下心来从地学角度给予支持和耐心的地学专家参与进来,地学的AI时代将很快到来。

论文: https://arxiv.org/abs/2306.05064
代码: https://github.com/davendw49/k2
原文:https://mp.weixin.qq.com/s/fjrDhnM4HWG-IT3UeDPdag