2023年即将结束,回顾这一年,自然语言处理的研究取得了重大的突破,并进入了大模型(LLM)时代,这一年也被称为“大模型元年”。大模型的崛起标志着人工智能技术迈向了一个新的阶段,众多科技巨头、研究机构、知名高校也纷纷在这一领域展开激烈的竞争。临近年底,带大家盘一盘2023年NLP领域的那些研究成果,相当精彩。

「关键词」:ChatGPT、Bard、MoSS、GPT-4、ChatGLM、QLoRA、PaLM2、LIMA、星火、文新、通义千问、Mamba、InternLM-20B、DALL・E 3、千帆、RLHF、Prompt、言犀、混元、MathGLM、LongLoRA、元乘象、XAgent 、天工、星辰、盘古、CoDi2。

1月

由于ChatGPT是在2022年11月底发布,此时大家正沉浸在ChatGPT强大的生成能力中,「全世界的人都在尝试不同的提问方式对ChatGPT进行测试」,例如验证ChatGPT的推理能力、数学逻辑能力、写作能力、医学/司法考试等;大家也深扒了ChatGPT标注背后的故事,例如非洲的职业标注、标注时薪等;在感叹其能力的同时,也渴望着OpenAI能够尽快发布GPT-4;鉴于OpenAI的发展趋势,微软继续追资十亿美元,并发布公告ChatGPT将会加入到微软云服务。

顶级国际学术会议 ICLR 2023 录用结果放出。ICLR 共接收近 5000 篇投稿,整体接收率为 31.8%,接近于去年的 32.26%。其中ICLR 是较为「年轻」的学术会议,它由深度学习巨头、图灵奖获得者 Yoshua Bengio 和 Yann LeCun 牵头举办,在 Google Scholar 的学术会议 / 期刊排名中,ICLR 目前排名第 9 位,要高于 NeurIPS。

由于恰逢年终,大佬们也对2023做了很多的展望。例如:「百度研究院发布2023 年十大科技趋势预测,指明了技术向实的时代科技发展主线」,目前看来其对大模型结合各大应用场景的发展趋势预测还是比较准确的;也有专家预测,随着百亿、千亿级别的大模型发展(ChatGPT、DALL-E等),未来我们将会进入到以数据为中心的时代。

2月

春节过后,人们逐渐回归至各自的学术、工作岗位,此时ChatGPT的热度仍然不减,并逐渐开始思考如何将ChatGPT等大模型应用于各个业务场景中,例如:微软的Bing悄悄的上线了ChatGPT的能力,

同时各大科技巨头、研究机构等学习ChatGPT的训练方式,布局自己的大模型训练计划,比较领先的机构也逐步开始发布自己的大模型。例如:Google受到了 UniTune 的启发,抢先发布了视频生成类AIGC,它们提出了一种新方法 Dreamix,将文本条件视频扩散模型(video diffusion model, VDM)应用于视频编辑;国内的初创公司元语智能推出了「首个中文语言大模型ChatYuan」,除了简单问答还可以支持法律、医疗等专业的问答。

为了能够在对话领域占据一定的地位,「Google提前发布了下一代对话AI系统Bard,来对标风头正劲的ChatGPT」,但是实际测试效果与ChatGPT还是存在一定的差距;紧跟着微软又宣布将ChatGPT应用到搜索引擎Bing。同月国内,「复旦大学也发布了具有ChatGPT能力的语言模型MOSS」,并且很快冲上了知乎等平台热搜榜的第一位,北大也提出了一种名为 ChatExcel 的新应用可以直接使用自然语言对表格中的数据信息进行查询、修改等操作,就像是一个精通 Excel 的助手。

3月

3月份关于大模型的消息,更是一个比一个劲爆,一个比一个精彩,国内外研究机构争相发布自己的大模型。

首先,OpenAI 宣布开放ChatGPT API,可以直接调用模型 gpt-3.5-turbo,相比之前的GPT-3.5 使用成本降低 90%,这让全球开发者欢呼;随后,「Meta打响了开源的第一枪,率先开源了LLaMA系列大模型」,LLaMA-13B可以胜过参数量达 1750 亿的 GPT-3,而且可以在单块 V100 GPU 上运行;而最大的LLaMA-65B亿参数的 LLaMA 模型可以媲美谷歌的 Chinchilla-70B 和 PaLM-540B;紧接着,「谷歌推出了一个参数量达 5620 亿的具身多模态语言模型 PaLM-E」。具体来说, PaLM-E-562B 集成了参数量 540B 的 PaLM 和参数量 22B 的视觉 Transformer(ViT),是当时已知的最大的视觉 - 语言模型。

「3月份最劲爆的消息要属OpenAI 发布的GPT-4多模态大模型」,一经发布引爆全球。而且恰巧,撞车国内百度发布的文心一言大模型。在此过程中,「清华发布了ChatGLM」,斯坦福发布了羊驼大模型Alpaca,谷歌的对话模型Bard也正式开放测试,微软Bing再次强化,接入了OpenAI DALL-E模型,实现了文生图的升级;英伟达发布了ChatGPT专用的GPT,推理速度可以提升10倍。

在学术研究领域,人们逐步开始关注人工强化学习RLHF、自动化神经网络剪枝,对于ChatGPT等大模型的应用进行了更加深入的考虑。

4月

新的开源模型不断地被发布,科技公司、研究机构继续发力,人们正逐步开始大模型的应用,并将最先进的GPT-4应用到新的模型训练中来,「大模型也从开源禁止商用阶段进入开源商用阶段」

首先加利福尼亚大学公布了开源模型白泽(Baize),可以在单个GPU上运行;随后,UC伯克利发布对话模型Koala,它可以在消费级 GPU 上运行,其中Koala 使用从网络收集的对话数据对 LLaMA 模型进行微调;紧接着「阿里发布了自己的“通义千问”大模型」;MiniGPT-4也开源发布,在文本方面可以达到90% ChatGPT的能力,在视觉感知方面,同样具备与GPT-4的多模态功能。

然后,「开源项目AutoGPT的发布也火爆全网,star突破10万」,它是一个实验性的开源应用程序,展示了 GPT-4 语言模型的功能。该程序由 GPT-4 驱动,可以自主实现用户设定的任何目标;同时,微软开源了DeepSpeed Chat,它让我们能够以更低的成本、更快的速度训练类似于ChatGPT的高质量大模型;随后亚马逊高调入局大模型大战,发布Titan大模型、AI编程助手全免费。

接着,复旦MOSS-16B开源了,并新增了多项功能;威斯康星大学麦迪逊分校、微软研究院和哥伦比亚大学研究者共同发布的多模态大模型LLaVA,尽管 LLaVA 是用一个小的多模态指令数据集训练的,但它在一些示例上展示了与多模态模型 GPT-4 非常相似的推理结果;斯坦福开发者发布了 Lamini,供开发人员使用很多公司、机构的基础模型快速构建定制化模型。

最后,Databricks 发布了 「Dolly 2.0」,它是业内第一个开源、遵循指令的 LLM,它在透明且免费提供的数据集上进行了微调,该数据集也是开源的,可用于商业目的,「这标志着大模型发展从开源禁止商用阶段进入开源商用阶段」

5月

各大科技巨头之间的竞争依然强烈。「首先国内科大讯飞发布了自己的星火大模型」、阿里达摩院发布了多模态大模型猫头鹰mPLUG-Owl 、360在世界智能大会上发布了360智脑;接着「Google为了对标GPT-4,发布了PaLM 二代模型」,它支持多语言、更强的数学、代码能力;随后OpenAI的ChatGPT手机APP上线,更加方便人们的使用;

在商业应用方面,「微软在Build大会上继续发布Windows Copilot」,将ChatGPT能力引入到Windows操作系统,旨在为用户提供高效的个人助理。为对标微软bing对话搜索,百度公布了自己的AI搜索引擎,同时也发布了文心千帆大模型平台,它是全球首个一站式的企业级大模型生产平台。

在大模型研究方面,「火爆学术界的要数Meta发表的LIMA论文,它在 1000 个精选样本上进行有监督学习」,在完全没使用 RLHF 方法的情况下,LIMA 表现出非常强大的性能,并且能够很好地泛化到训练数据以外的任务上。这为大模型的研究提供了新的思路。斯坦福大学提出了AlpacaFarm模拟器,AlpacaFarm 能在 24 小时内仅用约 200 美元复制 RLHF 过程,让开源模型迅速改善人类评估结果,堪称 RLHF 的平替。

此时,关于大模型能力全面评估的成果也逐渐被发布出来。例如:北京大学、西湖大学等机构的研究者联合提出了一种全新的「大模型评估范式PandaLM」,它通过训练一个专门用于评估的大模型,对大模型能力进行自动化且可复现的测试验证。CMU 副教授 Graham Neubig 为了能够实现对当前主流的七种聊天机器人进行了详细测评,并制作了一个实现自动比较的开开源工具包—Zeno Build。为应对大模型幻觉生成,北大提出了一种识别各式 AI 生成语料的可靠文本检测器。

6月

对于提前发布的模型产品,相关科技公司、科研机构开始逐步的更新他们的产品功能。例如:OpenAI提升了GPT-4的数学推理能力,北京智源发布了「悟道 3.0」 大模型系列,并进入到了全面开源的新阶段;Google上线大模型云服务,可实现代码生成、PaLM2等相关服务的调用;「百度文心大模型正式从 3.0 升级到 3.5」,不仅实现了创作、问答、推理和代码能力上全面升级,安全性显著提升,训练和推理速度也大幅提升。

相继也有新的模型出现,例如商汤科技、上海 AI 实验室联合香港中文大学、复旦大学及上海交通大学发布千亿级参数「大语言模型 “书生・浦语”(InternLM)」;TII开源了一个 400 亿参数的因果解码器模型Falcon-40B,它碾压了参数规模 1.5 倍的LLaMA-65B,也优于 MPT、RedPajama 和StableLM 等开源大模型;Meta推出了文本「音乐生成模型 MusicGen」,并且非商业用途免费使用;加州大学伯克利分校的研究者开源了一个项目 vLLM,该项目主要用于快速 LLM 推理和服务。

在大模型落地应用方面,斯坦福提出了级联 LLM 一个简单而灵活的实例 FrugalGPT,它可以与最佳个体 LLM(例如 GPT-4) 的性能相媲美,成本降低高达 98%;华盛顿大学、苏黎世联邦理工学院等机构的研究者提出了一种新的压缩格式和量化技术 SpQR(Sparse-Quantized Representation,稀疏 - 量化表征),首次实现了 LLM 跨模型尺度的近无损压缩;中科院、港理工等机构造出了一个表格助手SheetCopilot,它 可以快速连接多款表格处理软件,且支持多表操作、图表绘制和数据透视表生成。

7月

大模型竞争正式进入2023年的下半场,开源领域也是越来越卷,大模型正式进入开源商用阶段,大模型的应用也逐步开始沉淀到具体应用场景,研究人员开始发布模型基础能力的研究。

「Meta 发布的 Llama 2 模型系列」包含 70 亿、130 亿和 700 亿三种参数变体,Llama 2 在包括推理、编码、精通性和知识测试等许多外部基准测试中都优于其他开源语言模型,最重要的是可以支持商业应用。紧跟着, 「Stability AI 和 CarperAI lab 的两个大模型」:FreeWilly 1 和 FreeWilly 2,超越了 Meta 发布的 Llama-2-70b-hf,成功登顶 HuggingFace 的 Open LLM 排行榜榜首;京东推出了面向产业的言犀大模型和言犀 AI 开发计算平台,大踏步走向产业;微软将GPT-4赋能Office全家桶,并公布定价。

具体应用场景方面,北交开源了自主研发的国内首款综合交通大模型—TransGPT,仅需邮件申请并获得官方商用许可后,即可以免费商用;「中科院计算所推出多语言大模型百聆(BayLing)」,以经济友好、内存节约的方式实现了多语言人机交互能力;代码生成能力方面,「华为诺亚推出了其代码大模型 PanGu-Coder」,该模型在代码生成的一次通过率(PASS@1)指标上大幅超越同等参数规模的模型,甚至优于规模更大的模型;在气象预测方面,华为研究人员提出了一种新的高分辨率全球 AI 气象预报系统:「盘古气象(Pangu-Weather)大模型」;在法律咨询方面,北大发布了法律大模型 ChatLaw 登上了知乎热搜榜榜首。

8月

进入8月份,争相发布大模型的热度逐渐下降,但针对之前大模型存在的问题,也有相关模型及改进方法发布,同时,随着微软将大模型应用其相关产品,各大AI大模型产品陆续上线并向全社会开放,OpenAI也推出了ChatGPT的企业版。

针对PDF公式识别,Meta AI 推出了一个 OCR 神器,可以很好的解决这个难题,该神器被命名为 「Nougat」。Nougat 基于 Transformer 模型构建而成,可以轻松的将 PDF 文档转换为 MultiMarkdown;紧接着,Meta基于 Code Llama 的最「新版本模型 WizardCoder 34B」,它利用 Evol-Instruct 进行微调而成,在 HumanEval 上的 pass@1 达到了惊人的 73.2%,超越了原始 GPT-4;

基于LIMA论文思想方法,「上海清源」设计了一个数据选择器,从中选出了 200 个数据,然后训练得到了 「InstructionGPT-4大模型」,其表现竟优于微调数据更多的 MiniGPT-4;为了能够提升大模型上下文长度,Abacus.AI 的研究团队提出truncation 策略,使得LLaMA2上下文长度可支持32K上下文长度;为了实现大模型知识到小模型的迁移,「微软提出了 TinyMIM」,其在保持 ViT 结构不变并且不修改结构引入其他归纳偏置(inductive bias)的基础上、用蒸馏的方法迁移大模型上的知识到小模型。

另外关于「国内AI大模型产品的发布」,其中主要包括:北京 5 家大模型产品分别是百度的 “文心一言”、抖音的 “云雀”、百川智能的 “百川大模型”、清华系 AI 公司智谱华章旗下的 “智谱清言” 以及中科院的 “紫东太初”;上海 3 家大模型产品包括商汤的 “商量 SenseChat”、MiniMax 的 “ABAB 大模型”、上海人工智能实验室的 “书生通用大模型”;广东地区获批公司分别为华为、腾讯,科大讯飞系其它地区获批产品。

9月

进入9月份,国内的一些科技巨头、研究机构开始发力,对于大模型来说重点放在商业化应用、大模型训练平台、模型能力提升等方面。

「大模型应用方面」微软大模型Copilot正式嵌入Windows11操作系统;金山办公宣布,基于大语言模型的智能办公助手 WPS AI 已接入旗下全系产品,成了第一个将大语言模型(LLM)应用在办公软件领域,并真正交付了可用产品的公司。「蚂蚁集团在外滩大会上正式发布工业级金融大模型(AntFinGLM)」 ,同时开放了金融专属任务评测集。复旦大学发布中文医疗健康个人助手 —DISC-MedLLM。在单轮问答和多轮对话的医疗健康咨询评测中,模型的表现相比现有医学对话大模型展现出明显优势。

「在大模型训练平台建设方面」百度发布全新升级的智能云「千帆大模型平台 2.0」,包含支持大模型和数据集数量最多、工具链最完善、算力效能最佳和企业级安全四大亮点。京东云的「言犀 AI 开发计算平台」上线,不到一周时间,即可完成从数据准备、模型训练、到模型部署的全流程;Colossal-AI 再次迭代,提供开箱即用的 8 到 512 卡 LLaMA2 训练、微调、推理方案,对 700 亿参数训练加速 195%,并提供一站式云平台解决方案,极大降低大模型开发和落地应用成本。

「在模型能力提升方面」OpenAI正式推出「文生图 AI 工具DALL・E 3」,它相比以往系统更能理解细微差别和细节,让用户更加轻松地将自己的想法转化为非常准确的图像;一家法国人工智能初创公司 Mistral AI 发布了一款新模型 Mistral 7B,其在每个基准测试中,都优于 Llama 2 13B,并且在代码、数学和推理方面也优于 LLaMA 1 34B;「腾讯正式揭开了混元大模型的面纱」,作为一个超千亿参数的大模型,凭借多项独有的技术能力获得了强大的中文创作能力、复杂语境下的逻辑推理能力,以及可靠的任务执行能力。

为了将各种模态能够嵌入在 LLM 中使用,Meta 推出了AnyMAL,这是一个经过训练的多模态编码器集合,可将来自各种模态(包括图像、视频、音频和 IMU 运动传感器数据)的数据转换到 LLM 的文本嵌入空间。为了能够快速低成本部署大模型服务,加州伯克利开源了vLLM,其使用了一种新设计的注意力算法PagedAttention,可让服务提供商轻松、快速且低成本地发布 LLM 服务。

「新模型发布」:上海 AI 实验室等正式推出书生・浦语大模型(InternLM)200 亿参数版本 「InternLM-20B」,并在阿里云魔搭社区(ModelScope)开源首发。清华等研究者联合提出了一个能够完美执行复杂算术运算的新模型—「MathGLM」,20 亿参数的语言模型能够准确地进行多位算术运算,准确率几乎达到了 100%,且不会出现数据泄露(data leakage);清华大学朱军、陈键飞团队提出了用于神经网络训练的 4 比特优化器,节省了模型训练的内存开销,同时能达到与全精度优化器相当的准确率。在保持准确率无损的情况下可将微调 LLaMA-7B 的显存开销降低多达 57%。

10月

之前国内科技巨头/研发机构发布的大模型,在本月都迎来了重大更新。除此之外,国内在大模型能力提升、大模型微调训练、智能体等都公布了自己最新的研究成果。

「国内大模型的迭代更新 「百度正式推出文心大4.0」,在理解、生成、逻辑和记忆四大能力上都比文心一言线上版本有了明显提升,综合水平与 GPT-4 相比毫不逊色。科大讯飞正式推出讯飞」星火认知大模型 3.0 版本「,并宣告星火 V3.0 已经实现全方位超越 ChatGPT,在中文上实现全面超越,在英文上实现对标。」腾讯宣布混元大模型升级「,文生图能力正式上线。智子引擎发布了」多模态元乘象 Chatimg3.0「,同时支持多图理解、物体定位、OCR 等功能。智谱 AI 发布了自研」第三代对话大模型 ChatGLM3,实现了包括跨模态、Agent 等一系列全新能力。

「大模型能力提升」为提升大模型数学逆向推理能力,剑桥、华为等发布了MetaMathQA 数据集,基于 LLaMA-2 微调得到专注于数学推理 (正向和逆向) 的大语言模型 MetaMath,在数学推理数据集上达到了 SOTA。为提升大模型归纳演绎能力,Mila等研究机构并提出一种名为假设到理论(Hypotheses-to-Theories,HtT)的新框架,这种新方法不仅改进了多步推理,还具有可解释、可迁移等优势。为了让基础LLM更好地处理长上下文,Meta提出了一种新方法,可以有效地扩展基础模型的上下文能力,并且用该方法构建的长上下文 LLM 的性能表现优于所有现有的开源 LLM。为实现大模型的价值对齐,「上交大推出了一款全新的价值对齐评估工具:Auto-J」,旨在为行业和公众提供更加透明、准确的模型价值对齐评估。百川智能正式发布 Baichuan2-192K 长窗口大模型,将大语言模型(LLM)上下文窗口的长度一举提升到了 192K token。

「大模型微调训练」为实现了AI训练节约资源、加速收敛、提升泛化等目标。蚂蚁 AI Infra 团队重新审视 SAM 的损失函数,提出了一种更通用、有效的方法 WSAM,通过将平坦程度作为正则化项来改善训练极值点的平坦度。MIT 与香港中文大学联合研究,提出了 LongLoRA。它是一种有效的微调方法,以有限的计算成本扩展了预训练大型语言模型上下文大小。为实现多模态大模型的落地,微软等研究人员共同发布了LLaVA-1.5 ,通过对原始 LLaVA 的简单修改,仅使用 120 万公开数据,LLaVA-1.5 在单个 8-A100 节点上用不到 1 天的时间就完成了训练,并在 11 个基准上刷新了 SOTA。

「智能体」「微软AutoGen框架火出了圈,星标量从 390 狂增到 10K」,允许多个 LLM 智能体通过聊天来解决任务,智能体可以扮演各种角色,如程序员、设计师,或者是各种角色的组合,对话过程就把任务解决了。面壁智能联合清华推出大模型—「XAgent」。XAgent 是一个可以实现自主解决复杂任务的全新 AI 智能体,以 LLM 为核心,能够理解人类指令、制定复杂计划并自主采取行动。

11月

本月各大科技巨头、研究机构也在做最后的冲刺,本月比较炸裂的消息要数OpenAI公布了ChatGPT的重大更新,及其GPT-4 Turbo的更新,新的大模型更聪明,文本处理上限更高,价格也更便宜,应用商店也开了起来。。

「在新模型发布方面」 昆仑万维大语言模型「天工Skywork-13B」 系列正式宣布开源,Skywork-13B 系列的发布,可以说是国产开源大模型的又一力作。「阿里的通义千问Qwen-72B开源」,截止到现在有1.8B、7B亿、14B、72B 参数量的 4 款基础开源模型,以及跨语言、图像、语音等多种模态的多款开源模型。「中国电信星辰系列大模型迎来最新升级」,星辰语义大模型正式发布了千亿参数版本,在推理和回答准确性方面都有显著提升,并将上下文窗口提到了 96K Token,幻觉率降低了 40%。

「在大模型优化方面」 为挑战RLHF,斯坦福等研究机构的团队探索用对比偏好学习替换掉强化学习,在速度和性能上都有不俗的表现。「清华推出LCM/LCM-LoRA(潜在一致性模型)」,LCM 只用少数的几步推理就能生成高分辨率图像,将主流文生图模型的效率提高 5-10 倍。Meta提出了 EMU VIDEO,通过显式的中间图像生成步骤来增强基于扩散的文本到视频生成的条件,视频生成超越Gen-2。「Meta 提出了一种完全不同的注意力机制方法」,即通过将 LLM 用作一个自然语言推理器来执行注意力,与基于标准注意力的 LLM 相比,S2A 可以产生更讲事实、更少固执己见或阿谀奉承的 LLM。

12月

最后一个月,临近圣诞、元旦等节日,但科研脚步仍然不减。本月最劲爆的消息要数「有望颠覆Transformer的新的架构Mamba」,它在语言建模方面可以媲美甚至击败 Transformer,随上下文长度的增加实现线性扩展,其性能可提高到百万 token 长度序列,并实现 5 倍的推理吞吐量提升;除此之外,还有「Google发布的原生多模态大模型Gemini」 ,它包括三种量级:能力最强的 Gemini Ultra,适用于多任务的 Gemini Pro 以及适用于特定任务和端侧的 Gemini Nano。Gemini Pro实现了更为高级的推理、规划、理解等能力,同时继续保持免费。

「在智能体研究方面」华为诺亚等机构的研究者提出了「盘古智能体框架」(Pangu-Agent),旨在开发能够解决和适应复杂工作的多任务智能体(Agent)。快手开源了KwaiAgents智能体框架,使 7B/13B 的 “小” 大模型也能达到超越 GPT-3.5 的效果,并且这些系统、模型、数据、评测都开源了!

「在模型/应用方面」UC 伯克利、「微软将CoDi 升级到了 CoDi-2」,作为一种多功能、交互式的多模态大语言模型(MLLM),CoDi-2 能够以 any-to-any 输入-输出模态范式进行上下文学习、推理、聊天、编辑等任务。「微软宣布自研小尺寸模型 Phi-2」(27亿参数) 将完全开源,在常识推理、语言理解和逻辑推理方面的性能显著改进。华为发布大模型智能开发辅助工具CodeArts Snap,基于大模型强大理解和生成能力的 CodeArts Snap 具备八大核心能力:代码生成、研发知识问答、单元测试用例生成、代码解释、代码注释、代码调试、代码翻译、代码检查。

总结

2023年是大模型元年,全球的科技公司、研究机构的努力推动了大模型的蓬勃发展,相信明年依然精彩,提前祝福大家在新的一年里,身体健康,心想事成。