1.定义数据科学

文档摘要

定义数据科学素描笔记由@sketchthedocs绘制 :----------------------------------------------------------------------------------------------------: 定义数据科学 - 素描笔记由[@nitya绘制 |--- 定义数据科学视频课前测验什么是数据？在我们的日常生活中，我们被数据包围着。你现在正在阅读的文字就是数据。你智能手机中朋友的电话号码列表也是数据，还有手表上显示的当前时间也是数据。作为人类，我们通过数钱或给朋友写信来自然地处理数据。然而，随着计算机的出现，数据变得更为重要。计算机的主要功能是执行计算，但它们需要数据来操作。因此，我们需要了解计算机如何存储和处理数据。

定义数据科学

![素描笔记由@sketchthedocs绘制
定义数据科学 - 素描笔记由@nitya绘制

课前测验

什么是数据？

在我们的日常生活中，我们被数据包围着。你现在正在阅读的文字就是数据。你智能手机中朋友的电话号码列表也是数据，还有手表上显示的当前时间也是数据。作为人类，我们通过数钱或给朋友写信来自然地处理数据。

然而，随着计算机的出现，数据变得更为重要。计算机的主要功能是执行计算，但它们需要数据来操作。因此，我们需要了解计算机如何存储和处理数据。

随着互联网的出现，计算机作为数据处理设备的作用进一步增强。如果你仔细想想，我们现在越来越多地使用计算机进行数据处理和通信，而不是实际计算。当我们给朋友写电子邮件或在网上搜索一些信息时——我们本质上是在创建、存储、传输和操作数据。

你还能记得最后一次用计算机进行实际计算是什么时候吗？

什么是数据科学？

在Wikipedia中，数据科学被定义为“一个利用科学方法从结构化和非结构化数据中提取知识和洞察，并将这些知识和可操作的见解应用于广泛的应用领域的科学领域”。

这个定义强调了数据科学的以下几个重要方面：

数据科学的主要目标是从数据中提取知识，换句话说，就是要理解数据，找到一些隐藏的关系并建立一个模型。
数据科学使用科学方法，例如概率和统计。事实上，当第一次提出“数据科学”这个词时，有些人认为数据科学只是统计学的一个新名称。如今，显而易见的是，该领域要广泛得多。
获得的知识应该能够产生一些可操作的见解，即可以应用于实际业务情况的实用见解。
我们应该能够操作结构化和非结构化数据。我们将在课程的后面部分讨论不同类型的数据。
应用领域是一个重要的概念，数据科学家通常需要至少对问题领域有一定的专业知识，例如：金融、医学、市场营销等。

数据科学的另一个重要方面是它研究如何使用计算机收集、存储和处理数据。虽然统计学为我们提供了数学基础，但数据科学将数学概念应用于从数据中提取见解。

一种看待数据科学的方法（归因于[Jim Gray](https://en.wikipedia.org/wiki/Jim_Gray_(computer_scientist)））是将其视为一种独立的科学范式：

经验性的，其中我们主要依赖观察和实验结果
理论性的，新的概念从现有的科学知识中浮现出来
计算性的，我们基于某些计算实验发现新的原理
以数据为中心的，基于在数据中发现关系和模式

数据类型

正如我们已经提到的，数据无处不在。我们只需要以正确的方式捕获它！区分结构化和非结构化数据是有用的。前者通常以某种结构化形式表示，通常是表格形式，而后者只是一堆文件。有时我们也可以谈论半结构化数据，它们具有某种结构，但这种结构可能会有很大差异。

结构化	半结构化	非结构化
包含电话号码的人名单	维基百科页面包含链接	《大英百科全书》文本
建筑物中所有房间每分钟的温度记录，持续20年	科学论文集以JSON格式包含作者、出版日期和摘要	公司文档文件共享
进入建筑物的所有人的年龄和性别数据	互联网页面	监控摄像头的原始视频流

数据来源

有很多可能的数据来源，不可能列出所有这些来源！不过，让我们提及一些常见的数据获取地点：

结构化
- 物联网（IoT），包括来自不同传感器的数据，如温度或压力传感器，提供了大量有用的数据。例如，如果办公楼配备了物联网传感器，我们可以自动控制供暖和照明以降低成本。
- 调查，在用户购买后或访问网站后要求他们填写的调查表。
- 行为分析，可以帮助我们了解用户在网站上的浏览深度以及离开网站的常见原因。
非结构化
- 文本可以是丰富的信息来源，例如整体情感评分或提取关键词和语义意义。
- 图像或视频。监控摄像头的视频可用于估计道路上的交通流量，并告知人们潜在的交通堵塞。
- 网站服务器日志可用于了解哪些页面最常被访问，以及访问时间。
半结构化
- 社交网络图可以成为关于用户个性和信息传播潜在效果的数据来源。
- 当我们有一堆聚会的照片时，我们可以尝试通过构建一起拍照的人的图来提取群体动态数据。

通过了解不同的数据来源，你可以思考数据科学技术可以应用于的不同场景，从而更好地了解情况并改进业务流程。

你能用数据做什么

在数据科学中，我们专注于数据旅程的以下步骤：

1) 数据采集

第一步是收集数据。虽然在很多情况下这是一个直接的过程，比如数据从Web应用程序流入数据库，但有时我们需要使用特殊技术。例如，来自物联网传感器的数据可能是压倒性的，最好使用缓冲端点（如IoT Hub）来收集所有数据，然后再进行进一步处理。

2) 数据存储

存储数据可能具有挑战性，特别是当我们谈论大数据时。在决定如何存储数据时，考虑将来如何查询数据是有意义的。数据可以以几种方式存储：

关系型数据库存储一组表，并使用一种特殊的语言SQL来查询它们。通常，表被组织成不同的组，称为模式。在许多情况下，我们需要将数据从原始形式转换为适合模式的形式。
NoSQL数据库，如CosmosDB，不对数据强制执行模式，并允许存储更复杂的数据，例如分层JSON文档或图形。然而，NoSQL数据库没有SQL那样的丰富查询能力，也不能强制参照完整性，即关于如何在表中结构化数据以及管理表之间关系的规则。
数据湖存储用于存储大型的原始、非结构化数据集合。数据湖通常与大数据一起使用，其中所有数据不能放在一台机器上，必须存储和处理服务器集群。在大数据中常用的是一种名为Apache Parquet的数据格式。

3) 数据处理

这是数据旅程中最令人兴奋的部分，涉及将数据从原始形式转换为可用于可视化/模型训练的形式。当处理非结构化数据（如文本或图像）时，我们可能需要使用一些AI技术来从数据中提取**特征**，从而将其转换为结构化形式。

4) 可视化/人类洞察

为了理解数据，我们通常需要对其进行可视化。拥有多种不同的可视化技术，我们可以找到正确的视角来获得见解。通常，数据科学家需要“玩”数据，多次可视化并寻找某些关系。此外，我们可能会使用统计技术来测试假设或证明不同数据之间的相关性。

5) 训练预测模型

因为数据科学的最终目标是基于数据做出决策，我们可能会想使用机器学习的技术来构建预测模型。然后我们可以使用它来基于具有相似结构的新数据集进行预测。

当然，根据实际数据，某些步骤可能缺失（例如，当我们已经有了数据库中的数据，或者不需要模型训练时），或者某些步骤可能需要重复几次（例如数据处理）。

数字化和数字化转型

在过去的十年里，许多企业开始认识到数据在制定业务决策中的重要性。为了将数据科学原则应用于企业的运营，首先需要收集一些数据，即将业务流程转化为数字形式。这被称为数字化。将数据科学技术应用于这些数据以指导决策可以带来显著的生产力提升（甚至业务转型），称为数字化转型。

让我们考虑一个例子。假设我们有一个在线向学生授课的数据科学课程（就像这个课程一样），我们希望使用数据科学来改进它。我们如何做呢？

我们可以从问“什么可以被数字化？”开始。最简单的方法是测量每个学生完成每个模块所花费的时间，并通过在每个模块结束时进行多项选择测试来衡量获得的知识。通过对所有学生完成时间的平均值，我们可以找出哪些模块对学生来说最难，并努力简化它们。

你可能会认为这种方法不理想，因为模块长度可能不同。更公平的做法可能是将完成时间除以模块长度（以字符数量计），然后比较这些值。

当我们开始分析多项选择测试的结果时，我们可以尝试确定学生难以理解的概念，并利用这些信息改进内容。为此，我们需要设计测试，使每个问题映射到某个概念或知识块。

如果我们想要更加复杂，我们可以绘制每个模块完成时间与学生年龄类别之间的关系图。我们可能会发现对于某些年龄类别，完成模块所需的时间过长，或者学生在完成之前就放弃了。这可以帮助我们为模块提供年龄建议，并减少人们的失望感。

挑战

在这个挑战中，我们将通过查看文本来寻找与数据科学领域相关的概念。我们将取一篇关于数据科学的维基百科文章，下载并处理文本，然后构建一个像这样的词云：

数据科学词云

访问 notebook.ipynb 查看代码。你也可以运行代码，看看它是如何实时执行所有数据转换的。

如果你不了解如何在Jupyter笔记本中运行代码，请参阅this article。

课后测验

任务

任务1：修改上面的代码，以找出与大数据和机器学习领域相关的概念
任务2：思考数据科学场景

致谢

本课程由Dmitry Soshnikov撰写

声明:
本文件灏天文库团队进行了翻译。尽管我们力求准确，但请注意，翻译可能包含错误或不准确之处。原文档以其原始语言为准。我们不对因使用此翻译而产生的任何误解或误译负责。