数据科学生命周期简介 插图由@sketchthedocs绘制 :---: 数据科学生命周期简介 - 插图由@nitya绘制 课前小测验 到目前为止,你可能已经意识到数据科学是一个过程。这个过程可以分解为五个阶段: 捕获 处理 分析 交流 维护 本课重点介绍生命周期的三个部分:捕获、处理和维护。 数据科学生命周期的图表 图片来自伯克利信息学院 捕获 生命周期的第一阶段非常重要,因为后续阶段都依赖于它。实际上,这包括两个步骤:获取数据并定义需要解决的问题和目标。 定义项目的目的是需要深入了解问题或问题所在。首先,我们需要识别并获取那些需要解决问题的人。这些人可能是业务中的利益相关者或项目的赞助商,他们可以帮助确定谁或什么将从该项目中受益以及为什么需要它。
![]() |
|---|
| 数据科学生命周期简介 - 插图由@nitya绘制 |
到目前为止,你可能已经意识到数据科学是一个过程。这个过程可以分解为五个阶段:
本课重点介绍生命周期的三个部分:捕获、处理和维护。

图片来自伯克利信息学院
生命周期的第一阶段非常重要,因为后续阶段都依赖于它。实际上,这包括两个步骤:获取数据并定义需要解决的问题和目标。
定义项目的目的是需要深入了解问题或问题所在。首先,我们需要识别并获取那些需要解决问题的人。这些人可能是业务中的利益相关者或项目的赞助商,他们可以帮助确定谁或什么将从该项目中受益以及为什么需要它。一个明确的目标应该是可衡量和量化的,以定义一个可接受的结果。
数据科学家可能会问的问题:
接下来是识别、收集并最终探索实现这些定义目标所需的数据。在数据获取过程中,数据科学家还必须评估数据的数量和质量。这需要一些数据探索来确认所获得的数据是否支持达到预期的结果。
数据科学家可能会问关于数据的问题:
生命周期的处理阶段侧重于在数据中发现模式以及建模。处理阶段中使用的一些技术需要统计方法来揭示模式。通常,对于大数据集,人类手动完成这项任务会非常繁琐,并且将依赖计算机来加快处理速度。这个阶段也是数据科学和机器学习相交的地方。正如你在第一课中学到的,机器学习是建立模型来理解数据的过程。模型是数据中变量之间关系的表示,有助于预测结果。
在这个阶段常用的技术在《机器学习入门课程》中有详细介绍。请跟随链接了解更多信息:
在生命周期的图表中,你可能注意到维护位于捕获和处理之间。维护是管理、存储和保护数据的持续过程,应在整个项目过程中加以考虑。
如何及在哪里存储数据的考虑因素会影响其存储成本以及访问数据的速度。这类决策不太可能由数据科学家单独做出,但他们可能会根据数据存储方式做出如何处理数据的选择。
以下是现代数据存储系统的一些方面,可能影响这些选择:
本地存储 vs 非本地存储 vs 公共或私有云
本地存储指的是在自己的设备上托管和管理数据,例如拥有存储数据的服务器。非本地存储则依赖于不拥有的设备,比如数据中心。公共云是一种流行的存储数据的方式,无需了解数据的确切存储位置,公共是指所有用户共享的统一基础设施。有些组织有严格的安全政策,要求它们完全控制数据所在的设备,并依赖提供自己云服务的私有云。你将在后续课程中了解更多有关云端数据的知识。
冷数据 vs 热数据
在训练模型时,你可能需要更多的训练数据。如果你对模型满意,更多的数据将用于满足其用途。无论如何,随着数据积累,存储和访问数据的成本会增加。将很少使用的数据(称为冷数据)与频繁访问的热数据分开,可以通过硬件或软件服务成为一种更便宜的数据存储选项。如果需要访问冷数据,与热数据相比,检索可能需要更多时间。
当你处理数据时,可能会发现某些数据需要使用在数据准备课程中介绍的一些技术进行清理,以构建准确的模型。当新数据到达时,它也需要同样的处理以保持质量的一致性。有些项目涉及使用自动化工具进行清理、聚合和压缩,然后将数据移动到最终位置。Azure 数据工厂就是一个这样的工具示例。
确保数据安全的主要目标之一是确保正在处理数据的人能够控制收集的内容及其使用上下文。保持数据安全涉及限制仅限需要访问数据的人,遵守当地法律和法规,以及维持道德标准,如在伦理课程中所述。
团队可能出于安全考虑采取以下措施:
数据科学生命周期有许多版本,每个步骤可能有不同的名称和阶段数量,但都会包含本课中提到的相同过程。
探索团队数据科学过程生命周期和跨行业数据挖掘标准过程。列出这两个过程的三个相似点和不同点。
| 团队数据科学过程 (TDSP) | 跨行业数据挖掘标准过程 (CRISP-DM) |
|---|---|
![]() |
![]() |
| 图片来自微软 | 图片来自数据科学过程联盟 |
应用数据科学生命周期涉及多个角色和任务,其中一些角色可能专注于每个阶段的特定部分。团队数据科学过程提供了一些资源,解释了项目中某人可能具有的不同类型的角色和任务。
**声明**: 本文件灏天文库团队进行了翻译。尽管我们力求准确,但请注意,翻译可能包含错误或不准确之处。原文档以其原始语言为准。我们不对因使用此翻译而产生的任何误解或误译负责。