第十六章：开源模型引言

文档摘要

声明: 本文件灏天文库团队进行了翻译。尽管我们力求准确，但请注意，翻译可能包含错误或不准确之处。原文档以其原始语言为准。我们不对因使用此翻译而产生的任何误解或误译负责。

![开源模型](https://www.aiknowledge.cn/images/面向初学者的生成式AI课程/16-lesson-banner.webp)

## 引言

开源大型语言模型（LLM）的世界令人兴奋且不断演变。本课程旨在深入探讨开源模型。如果你正在寻找有关专有模型与开源模型比较的信息，请参阅“探索和比较不同LLM”课程。本课程还将涵盖微调主题，但更详细的解释可以在“微调LLM”课程中找到。

## 学习目标

- 理解开源模型
- 了解使用开源模型的好处
- 探索Hugging Face和Azure AI Studio中的开源模型

## 什么是开源模型？

开源软件在各个领域的技术发展中发挥了关键作用。开源促进组织（OSI）定义了[10条标准](https://web.archive.org/web/20241126001143/https://opensource.org/osd?WT.mc_id=academic-105485-koreyst)，以确定软件是否可以被归类为开源。源代码必须在经过OSI批准的许可证下公开共享。

虽然LLM的开发过程与软件开发有一些相似之处，但并不完全相同。这引发了关于在LLM背景下开源定义的广泛讨论。为了符合传统的开源定义，以下信息应公开提供：

- 训练模型所使用的数据集。
- 模型权重作为训练的一部分。
- 评估代码。
- 微调代码。
- 模型权重和训练指标。

目前只有少数模型符合这些标准。由Allen人工智能研究所（AllenAI）创建的[OLMo模型](https://huggingface.co/allenai/OLMo-7B?WT.mc_id=academic-105485-koreyst)就是其中之一。

对于本课程，我们将继续将这些模型称为“开源模型”，因为它们可能在写作时还不完全符合上述标准。

## 开源模型的优势

**高度可定制** - 由于开源模型提供了详细的训练信息，研究人员和开发者可以修改模型的内部结构。这使得创建高度专业化的模型成为可能，这些模型专门用于特定任务或研究领域。例如，在代码生成、数学运算和生物学方面。

**成本** - 使用和部署这些模型的成本每token比专有模型低。构建生成式AI应用时，需要考虑性能与价格之间的平衡。

![模型成本](https://www.aiknowledge.cn/images/面向初学者的生成式AI课程/model-price.webp)
来源：Artificial Analysis

**灵活性** - 使用开源模型可以灵活地选择不同的模型或组合它们。例如，[HuggingChat助手](https://huggingface.co/chat?WT.mc_id=academic-105485-koreyst)允许用户直接在界面中选择要使用的模型：

![选择模型](https://www.aiknowledge.cn/images/面向初学者的生成式AI课程/choose-model.webp)

## 探索不同的开源模型

### Llama 2

[Llama 2](https://huggingface.co/meta-llama?WT.mc_id=academic-105485-koreyst)，由Meta开发，是一种优化用于聊天应用的开源模型。这是由于其微调方法包括大量对话和人类反馈。通过这种方法，模型产生的结果更符合人类预期，从而提供更好的用户体验。

一些Llama的微调版本包括[JapaLlama](https://huggingface.co/elyza/ELYZA-japanese-Llama-2-7b?WT.mc_id=academic-105485-koreyst)，专注于日语；以及[Llama Pro](https://huggingface.co/TencentARC/LLaMA-Pro-8B?WT.mc_id=academic-105485-koreyst)，是基础模型的增强版。

### Mistral

[Mistral](https://huggingface.co/mistralai?WT.mc_id=academic-105485-koreyst)是一种专注于高性能和效率的开源模型。它采用专家混合方法，将一组专门的专家模型组合成一个系统，根据输入选择特定的模型。这种方法使计算更加有效，因为模型只处理它们擅长的输入。

一些Mistral的微调版本包括[BioMistral](https://huggingface.co/BioMistral/BioMistral-7B?text=Mon+nom+est+Thomas+et+mon+principal?WT.mc_id=academic-105485-koreyst)，专注于医学领域；以及[OpenMath Mistral](https://huggingface.co/nvidia/OpenMath-Mistral-7B-v0.1-hf?WT.mc_id=academic-105485-koreyst)，执行数学计算。

### Falcon

[Falcon](https://huggingface.co/tiiuae?WT.mc_id=academic-105485-koreyst)是由技术创新研究所（TII）创建的一种LLM。Falcon-40B使用了400亿个参数进行训练，已被证明在较低的计算预算下表现优于GPT-3。这是因为Falcon采用了FlashAttention算法和多查询注意力，能够减少推理时的内存需求。因此，Falcon-40B适用于聊天应用。

一些Falcon的微调版本包括[OpenAssistant](https://huggingface.co/OpenAssistant/falcon-40b-sft-top1-560?WT.mc_id=academic-105485-koreyst)，一个基于开源模型的助手；以及[GPT4ALL](https://huggingface.co/nomic-ai/gpt4all-falcon?WT.mc_id=academic-105485-koreyst)，比基础模型性能更高。

## 如何选择

没有单一的答案来选择开源模型。从使用Azure AI Studio的任务过滤功能开始是一个好主意。这可以帮助你了解模型训练过的任务类型。Hugging Face还维护了一个LLM排行榜，展示了基于某些指标的最佳表现模型。

当比较不同类型的LLM时，[Artificial Analysis](https://artificialanalysis.ai/?WT.mc_id=academic-105485-koreyst)是另一个很好的资源：

![模型质量](https://www.aiknowledge.cn/images/面向初学者的生成式AI课程/model-quality.webp)
来源：Artificial Analysis

如果针对特定用例工作，搜索专注于同一领域的微调版本会很有效。尝试多种开源模型，看看它们如何根据你的期望和用户的需求表现也是一个好做法。

## 下一步

开源模型的最大优点之一是你能很快开始使用它们。查看[Azure AI Studio模型目录](https://ai.azure.com?WT.mc_id=academic-105485-koreyst)，其中包含我们在这里讨论的模型。

## 学习不会停止在这里，继续旅程

完成本课程后，检查我们的[生成式AI学习集合](https://aka.ms/genai-collection?WT.mc_id=academic-105485-koreyst)，继续提升你的生成式AI知识！
声明:
本文件灏天文库团队进行了翻译。尽管我们力求准确，但请注意，翻译可能包含错误或不准确之处。原文档以其原始语言为准。我们不对因使用此翻译而产生的任何误解或误译负责。