谷歌推出了全新的开源模型系列「Gemma」。相比 Gemini,Gemma 更加轻量,同时保持免费可用,模型权重也一并开源了,且允许商用。
22222116-2024-02-22T14:21:40.png
本次发布包含两种权重规模的模型:Gemma 2B 和 Gemma 7B。每种规模都有预训练和指令微调版本。想使用的人可以通过 Kaggle、谷歌的 Colab Notebook 或通过 Google Cloud 访问。

尽管体量较小,但谷歌表示 Gemma 模型已经「在关键基准测试中明显超越了更大的模型」,对比的包括 Llama-2 7B 和 13B,以及风头正劲的 Mistral 7B。
22222237-2024-02-22T14:23:01.png
而且 Gemma「能够直接在开发人员的笔记本电脑或台式电脑上运行」。除了轻量级模型之外,谷歌还推出了鼓励协作的工具以及负责任地使用这些模型的指南。

Keras 作者 François Chollet 对此直接表示:最强开源大模型的位置现在易主了。
22222153-2024-02-22T14:22:17.png
在开源模型的同时,谷歌还公布了有关 Gemma 的性能、数据集组成和建模方法的详细信息的技术报告。在技术报告中,其他研究者发现了一些亮点,比如 Gemma 支持的词汇表大小达到了 256K,这意味着它对英语之外的其他语言能够更好、更快地提供支持。

谷歌发布了两个版本的 Gemma 模型,分别是 20 亿参数和 70 亿参数,并提供了预训练以及针对对话、指令遵循、有用性和安全性微调的 checkpoint。其中 70 亿参数的模型用于 GPU 和 TPU 上的高效部署和开发,20 亿参数的模型用于 CPU 和端侧应用程序。不同的尺寸满足不同的计算限制、应用程序和开发人员要求。

Gemma 在 18 个基于文本的任务中的 11 个上优于相似参数规模的开放模型,例如问答、常识推理、数学和科学、编码等任务。

Gemma官网:https://ai.google.dev/gemma/
技术报告: https://storage.googleapis.com/deepmind-media/gemma/gemma-report.pdf