Llama模型初学者指南
什么是Llama?
Llama(大型语言模型Meta AI)是大型语言模型(LLM)家族。这是Meta(Facebook)对ChatGPT的回应。但两家公司走的是不同的道路。ChatGPT是专有的。您不知道模型的代码、训练数据和训练方法。Llama是一个开源软件。代码、训练数据和训练代码在公众中存在。Llama是第一个主要的开源大语言模型。它在发布后立即获得人气。除了免费和开源之外,它还非常小,可以在个人计算机上运行。70 亿和 130 亿参数模型在良好的消费级 PC 上非常有用。
Llama如何工作?
LLama是一个人工智能模型,旨在预测下一个单词。您可以将其视为美化的自动完成功能。它使用来自互联网和其他公共数据集的文本进行训练。Llama 2 训练了大约 2 万亿个单词。你可能很好奇为什么Llama模型看起来很聪明:它为棘手的问题提供了合理的答案。它能够重写您的论文并提供各种主题的积极和消极因素。培训文本是由人们编写的。将它们视为投射在文本文件上的人类思想。当模型学习完成一个句子时,模型也学习了人类的一个方面。
Llama模型能理解逻辑吗?人们对此有不同的看法。一方说它不能,因为它是为了学习相关性而创建的。它所做的只是猜测下一个最有可能出现的单词。但对方认为可以。想象一下,训练文本是一个关于谋杀的神秘故事。它需要完成最后一句“凶手是”。要正确猜测下一个单词,它别无选择,只能学习逻辑。
为什么使用LLama而不是ChatGPT?
ChatGPT 是零设置。提供免费版本。为什么要使用LLama?ChatGPT确实是高度可访问的。以下是使用Llama而不是ChatGPT的原因。
- 隐私。您可以在自己的计算机上本地使用鞘驼。您无需担心您提出的问题会无限期地存储在公司的服务器中。
- 保密性。您可能无法将 ChatGPT 用于与工作相关的查询,因为您受保密协议的约束。毕竟,你没有OpenAI的NDA。
- 定制。您可以选择许多本地微调的模型。如果您不喜欢某个模型的答案,可以切换到另一个模型。
- 训练模型。最后, 您有机会使用 LoRA 等技术训练自己的模型.
你能用Llama模型做什么?
你可以像使用ChatGPT一样使用Llama模型。
- 聊天。只需询问有关您想知道的事情的问题。
- 编码。要求一个简短的程序用特定的计算机语言做某事。
- 概述。概述某些技术主题。
- 创意写作。让模特为你写一个故事。
- 信息提取。总结一篇文章。询问有关论文的具体问题。
- 重写。用不同的语气和风格写你的段落。
Llama支持什么语言?
主要是英语。训练数据为 90% 的英语。其他支持的语言包括德语、法语、中文、西班牙语、荷兰语、意大利语、日语、波兰语、葡萄牙语等。但不要指望他们。这意味着您不应该将 Llama 用于翻译任务。
我需要什么计算机硬件?
这取决于模型大小。以下是在具有 GPTQ 型号的 GPU 卡上运行所需的 VRAM。
Model | 8-bit | 4-bit |
---|---|---|
7B | 10 GB | 6 GB |
13B | 20 GB | 10 GB |
30 GB | 40 GB | 20 GB |
70 GB | 80 GB | 40 GB |
以下是针对 GGML 模型的。(适用于 Windows 或 Linux 上的 Mac 或 CPU)
Model | 4-bit quantized |
---|---|
7B | 4 GB |
13B | 8 GB |
30 GB | 20 GB |
70 GB | 39 GB |
这些8位和4位型号是什么?
大语言模型太大了。计算机的内存量很快成为使用该模型的瓶颈。AI 模型的参数通常以 16 位数字编码,等于 2 个字节。换句话说,加载 13B Llama模型需要 26GB,这对大多数人来说是不切实际的。
量化是一种在保持质量的同时减小模型大小的方法。对您的好处是硬盘驱动器中的尺寸较小,并且需要更少的 RAM 才能运行。8位量化模型为每个参数占用 8位或1字节的内存。4位量化模型每个参数需要4位或半个字节。4位量化13B Llama模型只需 6.5GB RAM 即可加载。
当然,没有免费的午餐。使用 8 位和 4 位型号时,您可能会看到质量略有下降。
Llama有哪些不同版本?
官方型号
Meta 发布的官方模型有两个版本——Llama 1 和 Llama 2。
Llama 1 于 2023 年 2 月问世。这个版本引起了很大的兴奋,因为它是第一个重要的开源LLM。这在当时是一个很大的惊喜,但现在看来是很久以前的事了。Llama 1 激发了许多努力来微调和优化模型以在本地运行它。最初认为不可能在本地运行LLM。业余爱好者在短时间内解决了这个问题。虽然前景广阔,但Llama 1的发布许可证不允许商业使用。这限制了Llama 1模型的采用。
LLama 2 于 2023 年 7 月问世。在训练和模型体系结构方面有一些渐进式改进。最重要的变化是许可期限。Llama 2现在免费用于商业用途。人们普遍预计,这将引发新一轮的发展,就像Stable Diffuison一样。
微调模型
与ChatGPT不同,如果您对它的响应不满意,您可以制作自己的Llama模型。您可以通过用其他数据来教它来做到这一点。这称为微调。以下是一些流行的微调模型。
WizardLM 巫师模型
WizardLM 是一个模型系列,通过许多遵循指令的对话进行了微调。该模型的新颖之处在于使用LLM自动生成训练数据。
https://github.com/nlpxucan/WizardLM
Vicuna 小羊驼
Vicuna 通过ChatGPT对话进行了微调。
https://agi-sphere.com/vicuna-mac/
如何比较模型的性能?
有很多型号可供选择。你怎么知道哪个是最好的,不管这意味着什么?如何将Llama模型与ChatGPT进行比较?
LMSYS主持了一个领导委员会来比较LLM的性能,包括像ChatGPT这样的专有LLM。他们衡量 3 个指标:
- Chatbot Arena聊天机器人竞技场:两个LLM的答案盲目呈现给用户,让用户选择更好的一个。然后计算每个LLM的排名分数。
- MT-bench:使用GPT-4来判断答案LLM(该指标有利于GPT模型。
- MMLU(Massive Multitask Language Understanding)大规模多任务语言理解:在57个任务中测试LLM,包括小学数学,美国历史,计算机科学,法律等。
什么是GTPQ和GGML模型格式?
GPTQ是一种量化方法,它量化LLM以减小其大小。它速度很快,并且对性能的影响最小。
GGML是另一种量化方法,专注于使用Apple Silicon M1 / M2和Intel CPU加速。
我应该使用哪种模型格式?
如果您有 Nvidia GPU 卡,GPTQ 格式可为您提供最佳性能。如果您使用 Mac、不带 GPU 的 Windows 或不带 GPU 的 Linux,请使用 GGML 格式。
如何安装Llama模型?
请参阅Llama官方安装指南。
使用Llama的软件是什么?
text-generation-webui 是用于使用 Llama 模型的图形用户界面。它功能强大且易于使用。我向普通用户推荐此软件。如果您更喜欢纯文本体验并且习惯使用终端,llama.cpp是一个不错的选择。
我可以在商业上使用Llama吗?
Llama 1不行,Llama 2可以商业使用。