第十六章:开源模型引言


文档摘要

声明: 本文件灏天文库团队进行了翻译。尽管我们力求准确,但请注意,翻译可能包含错误或不准确之处。原文档以其原始语言为准。我们不对因使用此翻译而产生的任何误解或误译负责。

![开源模型](https://www.aiknowledge.cn/images/面向初学者的生成式AI课程/16-lesson-banner.webp) ## 引言 开源大型语言模型(LLM)的世界令人兴奋且不断演变。本课程旨在深入探讨开源模型。如果你正在寻找有关专有模型与开源模型比较的信息,请参阅“探索和比较不同LLM”课程。本课程还将涵盖微调主题,但更详细的解释可以在“微调LLM”课程中找到。 ## 学习目标 - 理解开源模型 - 了解使用开源模型的好处 - 探索Hugging Face和Azure AI Studio中的开源模型 ## 什么是开源模型? 开源软件在各个领域的技术发展中发挥了关键作用。开源促进组织(OSI)定义了[10条标准](https://web.archive.org/web/20241126001143/https://opensource.org/osd?WT.mc_id=academic-105485-koreyst),以确定软件是否可以被归类为开源。源代码必须在经过OSI批准的许可证下公开共享。 虽然LLM的开发过程与软件开发有一些相似之处,但并不完全相同。这引发了关于在LLM背景下开源定义的广泛讨论。为了符合传统的开源定义,以下信息应公开提供: - 训练模型所使用的数据集。 - 模型权重作为训练的一部分。 - 评估代码。 - 微调代码。 - 模型权重和训练指标。 目前只有少数模型符合这些标准。由Allen人工智能研究所(AllenAI)创建的[OLMo模型](https://huggingface.co/allenai/OLMo-7B?WT.mc_id=academic-105485-koreyst)就是其中之一。 对于本课程,我们将继续将这些模型称为“开源模型”,因为它们可能在写作时还不完全符合上述标准。 ## 开源模型的优势 **高度可定制** - 由于开源模型提供了详细的训练信息,研究人员和开发者可以修改模型的内部结构。这使得创建高度专业化的模型成为可能,这些模型专门用于特定任务或研究领域。例如,在代码生成、数学运算和生物学方面。 **成本** - 使用和部署这些模型的成本每token比专有模型低。构建生成式AI应用时,需要考虑性能与价格之间的平衡。 ![模型成本](https://www.aiknowledge.cn/images/面向初学者的生成式AI课程/model-price.webp) 来源:Artificial Analysis **灵活性** - 使用开源模型可以灵活地选择不同的模型或组合它们。例如,[HuggingChat助手](https://huggingface.co/chat?WT.mc_id=academic-105485-koreyst)允许用户直接在界面中选择要使用的模型: ![选择模型](https://www.aiknowledge.cn/images/面向初学者的生成式AI课程/choose-model.webp) ## 探索不同的开源模型 ### Llama 2 [Llama 2](https://huggingface.co/meta-llama?WT.mc_id=academic-105485-koreyst),由Meta开发,是一种优化用于聊天应用的开源模型。这是由于其微调方法包括大量对话和人类反馈。通过这种方法,模型产生的结果更符合人类预期,从而提供更好的用户体验。 一些Llama的微调版本包括[JapaLlama](https://huggingface.co/elyza/ELYZA-japanese-Llama-2-7b?WT.mc_id=academic-105485-koreyst),专注于日语;以及[Llama Pro](https://huggingface.co/TencentARC/LLaMA-Pro-8B?WT.mc_id=academic-105485-koreyst),是基础模型的增强版。 ### Mistral [Mistral](https://huggingface.co/mistralai?WT.mc_id=academic-105485-koreyst)是一种专注于高性能和效率的开源模型。它采用专家混合方法,将一组专门的专家模型组合成一个系统,根据输入选择特定的模型。这种方法使计算更加有效,因为模型只处理它们擅长的输入。 一些Mistral的微调版本包括[BioMistral](https://huggingface.co/BioMistral/BioMistral-7B?text=Mon+nom+est+Thomas+et+mon+principal?WT.mc_id=academic-105485-koreyst),专注于医学领域;以及[OpenMath Mistral](https://huggingface.co/nvidia/OpenMath-Mistral-7B-v0.1-hf?WT.mc_id=academic-105485-koreyst),执行数学计算。 ### Falcon [Falcon](https://huggingface.co/tiiuae?WT.mc_id=academic-105485-koreyst)是由技术创新研究所(TII)创建的一种LLM。Falcon-40B使用了400亿个参数进行训练,已被证明在较低的计算预算下表现优于GPT-3。这是因为Falcon采用了FlashAttention算法和多查询注意力,能够减少推理时的内存需求。因此,Falcon-40B适用于聊天应用。 一些Falcon的微调版本包括[OpenAssistant](https://huggingface.co/OpenAssistant/falcon-40b-sft-top1-560?WT.mc_id=academic-105485-koreyst),一个基于开源模型的助手;以及[GPT4ALL](https://huggingface.co/nomic-ai/gpt4all-falcon?WT.mc_id=academic-105485-koreyst),比基础模型性能更高。 ## 如何选择 没有单一的答案来选择开源模型。从使用Azure AI Studio的任务过滤功能开始是一个好主意。这可以帮助你了解模型训练过的任务类型。Hugging Face还维护了一个LLM排行榜,展示了基于某些指标的最佳表现模型。 当比较不同类型的LLM时,[Artificial Analysis](https://artificialanalysis.ai/?WT.mc_id=academic-105485-koreyst)是另一个很好的资源: ![模型质量](https://www.aiknowledge.cn/images/面向初学者的生成式AI课程/model-quality.webp) 来源:Artificial Analysis 如果针对特定用例工作,搜索专注于同一领域的微调版本会很有效。尝试多种开源模型,看看它们如何根据你的期望和用户的需求表现也是一个好做法。 ## 下一步 开源模型的最大优点之一是你能很快开始使用它们。查看[Azure AI Studio模型目录](https://ai.azure.com?WT.mc_id=academic-105485-koreyst),其中包含我们在这里讨论的模型。 ## 学习不会停止在这里,继续旅程 完成本课程后,检查我们的[生成式AI学习集合](https://aka.ms/genai-collection?WT.mc_id=academic-105485-koreyst),继续提升你的生成式AI知识!

声明:
本文件灏天文库团队进行了翻译。尽管我们力求准确,但请注意,翻译可能包含错误或不准确之处。原文档以其原始语言为准。我们不对因使用此翻译而产生的任何误解或误译负责。


发布者: 作者: 转发
评论区 (0)
U