数据科学生命周期简介 插图由@sketchthedocs绘制 :---: 数据科学生命周期简介 - 插图由@nitya绘制 课前小测验 到目前为止,你可能已经意识到数据科学是一个过程。这个过程可以分解为五个阶段: 捕获 处理 分析 交流 维护 本课重点介绍生命周期的三个部分:捕获、处理和维护。 数据科学生命周期的图表 图片来自伯克利信息学院 捕获 生命周期的第一阶段非常重要,因为后续阶段都依赖于它。实际上,这包括两个步骤:获取数据并定义需要解决的问题和目标。 定义项目的目的是需要深入了解问题或问题所在。首先,我们需要识别并获取那些需要解决问题的人。这些人可能是业务中的利益相关者或项目的赞助商,他们可以帮助确定谁或什么将从该项目中受益以及为什么需要它。一个明确的目标应该是可衡量和量化的,以定义...
数据科学生命周期简介 插图由@sketchthedocs绘制 :---: 数据科学生命周期简介 - 插图由@nitya绘制 课前小测验 到目前为止,你可能已经意识到数据科学是一个过程。这个过程可以分解为五个阶段: 捕获 处理 分析 交流 维护 本课重点介绍生命周期的三个部分:捕获、处理和维护。 数据科学生命周期的图表 图片来自伯克利信息学院 捕获 生命周期的第一阶段非常重要,因为后续阶段都依赖于它。实际上,这包括两个步骤:获取数据并定义需要解决的问题和目标。 定义项目的目的是需要深入了解问题或问题所在。首先,我们需要识别并获取那些需要解决问题的人。这些人可能是业务中的利益相关者或项目的赞助商,他们可以帮助确定谁或什么将从该项目中受益以及为什么需要它。一个明确的目标应该是可衡量和量化的,以定义一个可接受的结果。 数据科学家可能会问的问题: 这个问题以前被研究过吗?发现了什么? 所有参与者是否都理解目的和目标? 是否存在歧义,如何减少歧义? 有哪些约束条件? 最终结果可能是什么样子? 可用的资源(时间、人员、计算)有多少? 接下来是识别、收集并最终探索实现这些定义目标所需的数据。在数据获取...