Llama模型初学者指南

什么是Llama？

Llama（大型语言模型Meta AI）是大型语言模型（LLM）家族。这是Meta（Facebook）对ChatGPT的回应。但两家公司走的是不同的道路。ChatGPT是专有的。您不知道模型的代码、训练数据和训练方法。Llama是一个开源软件。代码、训练数据和训练代码在公众中存在。Llama是第一个主要的开源大语言模型。它在发布后立即获得人气。除了免费和开源之外，它还非常小，可以在个人计算机上运行。70 亿和 130 亿参数模型在良好的消费级 PC 上非常有用。

Llama如何工作？

LLama是一个人工智能模型，旨在预测下一个单词。您可以将其视为美化的自动完成功能。它使用来自互联网和其他公共数据集的文本进行训练。Llama 2 训练了大约 2 万亿个单词。你可能很好奇为什么Llama模型看起来很聪明：它为棘手的问题提供了合理的答案。它能够重写您的论文并提供各种主题的积极和消极因素。培训文本是由人们编写的。将它们视为投射在文本文件上的人类思想。当模型学习完成一个句子时，模型也学习了人类的一个方面。

Llama模型能理解逻辑吗？人们对此有不同的看法。一方说它不能，因为它是为了学习相关性而创建的。它所做的只是猜测下一个最有可能出现的单词。但对方认为可以。想象一下，训练文本是一个关于谋杀的神秘故事。它需要完成最后一句“凶手是”。要正确猜测下一个单词，它别无选择，只能学习逻辑。

为什么使用LLama而不是ChatGPT？

ChatGPT 是零设置。提供免费版本。为什么要使用LLama？ChatGPT确实是高度可访问的。以下是使用Llama而不是ChatGPT的原因。

隐私。您可以在自己的计算机上本地使用鞘驼。您无需担心您提出的问题会无限期地存储在公司的服务器中。
保密性。您可能无法将 ChatGPT 用于与工作相关的查询，因为您受保密协议的约束。毕竟，你没有OpenAI的NDA。
定制。您可以选择许多本地微调的模型。如果您不喜欢某个模型的答案，可以切换到另一个模型。
训练模型。最后，您有机会使用 LoRA 等技术训练自己的模型.

你能用Llama模型做什么？

你可以像使用ChatGPT一样使用Llama模型。

聊天。只需询问有关您想知道的事情的问题。
编码。要求一个简短的程序用特定的计算机语言做某事。
概述。概述某些技术主题。
创意写作。让模特为你写一个故事。
信息提取。总结一篇文章。询问有关论文的具体问题。
重写。用不同的语气和风格写你的段落。

Llama支持什么语言？

主要是英语。训练数据为 90% 的英语。其他支持的语言包括德语、法语、中文、西班牙语、荷兰语、意大利语、日语、波兰语、葡萄牙语等。但不要指望他们。这意味着您不应该将 Llama 用于翻译任务。

我需要什么计算机硬件？

这取决于模型大小。以下是在具有 GPTQ 型号的 GPU 卡上运行所需的 VRAM。

Model	8-bit	4-bit
7B	10 GB	6 GB
13B	20 GB	10 GB
30 GB	40 GB	20 GB
70 GB	80 GB	40 GB

以下是针对 GGML 模型的。（适用于 Windows 或 Linux 上的 Mac 或 CPU）

Model	4-bit quantized
7B	4 GB
13B	8 GB
30 GB	20 GB
70 GB	39 GB

这些8位和4位型号是什么？

大语言模型太大了。计算机的内存量很快成为使用该模型的瓶颈。AI 模型的参数通常以 16 位数字编码，等于 2 个字节。换句话说，加载 13B Llama模型需要 26GB，这对大多数人来说是不切实际的。

量化是一种在保持质量的同时减小模型大小的方法。对您的好处是硬盘驱动器中的尺寸较小，并且需要更少的 RAM 才能运行。8位量化模型为每个参数占用 8位或1字节的内存。4位量化模型每个参数需要4位或半个字节。4位量化13B Llama模型只需 6.5GB RAM 即可加载。

当然，没有免费的午餐。使用 8 位和 4 位型号时，您可能会看到质量略有下降。

Llama有哪些不同版本？

官方型号

Meta 发布的官方模型有两个版本——Llama 1 和 Llama 2。
Llama 1 于 2023 年 2 月问世。这个版本引起了很大的兴奋，因为它是第一个重要的开源LLM。这在当时是一个很大的惊喜，但现在看来是很久以前的事了。Llama 1 激发了许多努力来微调和优化模型以在本地运行它。最初认为不可能在本地运行LLM。业余爱好者在短时间内解决了这个问题。虽然前景广阔，但Llama 1的发布许可证不允许商业使用。这限制了Llama 1模型的采用。

LLama 2 于 2023 年 7 月问世。在训练和模型体系结构方面有一些渐进式改进。最重要的变化是许可期限。Llama 2现在免费用于商业用途。人们普遍预计，这将引发新一轮的发展，就像Stable Diffuison一样。

微调模型

与ChatGPT不同，如果您对它的响应不满意，您可以制作自己的Llama模型。您可以通过用其他数据来教它来做到这一点。这称为微调。以下是一些流行的微调模型。
WizardLM 巫师模型
WizardLM 是一个模型系列，通过许多遵循指令的对话进行了微调。该模型的新颖之处在于使用LLM自动生成训练数据。
https://github.com/nlpxucan/WizardLM

Vicuna 小羊驼
Vicuna 通过ChatGPT对话进行了微调。
https://agi-sphere.com/vicuna-mac/

如何比较模型的性能？

有很多型号可供选择。你怎么知道哪个是最好的，不管这意味着什么？如何将Llama模型与ChatGPT进行比较？
LMSYS主持了一个领导委员会来比较LLM的性能，包括像ChatGPT这样的专有LLM。他们衡量 3 个指标：

Chatbot Arena聊天机器人竞技场：两个LLM的答案盲目呈现给用户，让用户选择更好的一个。然后计算每个LLM的排名分数。
MT-bench：使用GPT-4来判断答案LLM（该指标有利于GPT模型。
MMLU（Massive Multitask Language Understanding）大规模多任务语言理解：在57个任务中测试LLM，包括小学数学，美国历史，计算机科学，法律等。

什么是GTPQ和GGML模型格式？

GPTQ是一种量化方法，它量化LLM以减小其大小。它速度很快，并且对性能的影响最小。
GGML是另一种量化方法，专注于使用Apple Silicon M1 / M2和Intel CPU加速。

我应该使用哪种模型格式？

如果您有 Nvidia GPU 卡，GPTQ 格式可为您提供最佳性能。如果您使用 Mac、不带 GPU 的 Windows 或不带 GPU 的 Linux，请使用 GGML 格式。

如何安装Llama模型？

请参阅Llama官方安装指南。

使用Llama的软件是什么？

text-generation-webui 是用于使用 Llama 模型的图形用户界面。它功能强大且易于使用。我向普通用户推荐此软件。如果您更喜欢纯文本体验并且习惯使用终端，llama.cpp是一个不错的选择。

我可以在商业上使用Llama吗？

Llama 1不行，Llama 2可以商业使用。