在讨论人工智能先进技术或产品时,我们常常会看到一个专业术语:SOTA。当某项产品或技术被打上SOTA关键词时,似乎就能自带光环。话说回来,到底什么是SOTA?它和人工智能有着怎样的关联?如何才能成为某个领域的SOTA?如果你也好奇,下面我们一起看瞧瞧。

什么是SOTA?

在业内,SOTA普遍被视为“State-of-the-Art”的缩写。虽然英文全称带“Art”(艺术)字样,但SOTA目前更多被用于科技、工程、医学等领域,被视为细分领域最新式、先进或顶尖的技术方案、设备工具或方法、应用实践的“代名词”。

人工智能不是SOTA使用最早的领域,但AI技术的日新月异,使得SOTA频频刷新,也让这个本来有些生僻的专业术语,成了科技行业人们几乎耳熟能详的词汇。因为SOTA往往代表了特定领域或任务中,当前的最新进展和最高水准,所以也常常被作为优势亮点,来彰显自身在技术水平、产品性能、应用实践等方面的领先地位。同时它也激励着研究人员和开发者们不断超越以往的成就,实现更大程度的提升和突破。

SOTA与人工智能有何关联?

简单来说,人工智能应该算是SOTA当下一大热门的应用领域,也推动着该领域的SOTA不断刷新。目前,SOTA 的使用范围已覆盖机器学习(ML)、深度神经网络 (DNN)、自然语言处理 (NLP)、计算机视觉等多个大的AI技术分支。再往下分,主流的SOTA模型已经涵盖图像分类、图像生成、音视频生成、文本分类、强化学习、目标检测、推荐系统、语音识别、语音处理等上百个细分子类,而且这个数量随着细分领域的延伸与基准的刷新,还能持续增多。因为SOTA意味着打破以往的水准,催生更多新的技术、方法和工具,SOTA模型在推进人工智能等技术的发展上发挥了至关重要的作用,也是各领域创新和发展的一大内在驱动。

SOTA如何界定?

因为SOTA常常指向特定领域技术先进、表现最好、性能最优的产品、模型、技术方案等,所以它经常通过基准、参考点或应用结果来进行界定。

以机器学习领域的SOTA 为例,在评估是否达到行业SOTA水平时,业内通常会评估准确性、精确率&召回率、F1分数、平均精度(mAP)、均方误差(MSE)、AUC值、平均精度(mAP@K)等指标,来辅助了解其性能以及在不同领域和应用实践中实现SOTA的适用性。而具体的评估指标,可能视产品属性、实际任务、数据集特征、特定要求等情况而定。

举个例子。今年3月份,Databricks推出DBRX,该开源模型包含1320亿参数,在综合基准、语言理解(MMLU)、编程(Human-Eval)、数学(GSM-8K)等方面超过LLaMA2-70B、Mixtral、Grok-1等开源模型,被称为“刷新了开源AI模型的SOTA”。不过随着4000亿参数的Llama 3-400B即将出现,因其在数学、编程、MMLU等基准上领先于Gemma 7B 、Mistral 7B、Claude 3等AI模型,使得开源模型的SOTA地位很快发生了变化。

除了在基准数据集中跑分高,产品技术或性能远超同行,也常常被称为某个领域的SOTA。比如司普推出的AI模型在医疗数据结构化中信息识别准确率超过95%无递减(同行一般能做到85%-90%),调优后可达98%-100%,还能通过智能决策输出高精度的核保结论,也因此被视为该细分领域的SOTA水准。

SOTA的价值

综上,我们能大概了解到:
1.SOTA是特定领域或任务、性能保持领先水平的代名词。
2.SOTA并非一成不变,而是会随着新的基准,诞生新的领航者。
3.SOTA意味着超越和突破原有的水平以实现更高的水准。它也因此激励着人们打破能力边界,推动行业的良性竞争,最终实现整个领域的持续发展。

不过,SOTA的存在,不是鼓励大家为了追求SOTA而SOTA,而在于激发潜能,在竞技中推动更优的技术、方案、设备、工具、产品等的落地。