4.1 知识库的介绍及数据准备 Owner: 林深雾起 一、知识库的介绍 这里的知识库就是我们提及的数据集,如你日常所作笔记,产品文档,论文数据集,垂直领域所积累的用户数据集等,也可以是一本书,一类型书籍等。格式可以是txt,pdf,markdown,docm或者json数据。 二、数据准备 本次教程可以使用自己笔记作为数据集进行使用,也可以下载一本书籍作为数据集,或者其他类型数据集,推荐使用书籍作为数据集。 1.数据准备: 确定知识库的目的:明确你想要从数据集中获取什么样的信息或知识。 选择数据源:可以是个人笔记、产品文档、学术论文、用户数据集、书籍等。 确定数据格式:常见的格式包括TXT、PDF、Markdown、DOCM、JSON,SQL等,选择适合你目的的格式。