定义数据科学 素描笔记由@sketchthedocs绘制 :----------------------------------------------------------------------------------------------------: 定义数据科学 - 素描笔记由[@nitya绘制 |--- 定义数据科学视频 课前测验 什么是数据? 在我们的日常生活中,我们被数据包围着。你现在正在阅读的文字就是数据。你智能手机中朋友的电话号码列表也是数据,还有手表上显示的当前时间也是数据。作为人类,我们通过数钱或给朋友写信来自然地处理数据。 然而,随着计算机的出现,数据变得更为重要。计算机的主要功能是执行计算,但它们需要数据来操作。因此,我们需要了解计算机如何存储和处理数据。
| ))是将其视为一种独立的科学范式:
由于数据无处不在,数据科学本身也是一个广泛的领域,涉及许多其他学科。
正如我们已经提到的,数据无处不在。我们只需要以正确的方式捕获它!区分结构化和非结构化数据是有用的。前者通常以某种结构化形式表示,通常是表格形式,而后者只是一堆文件。有时我们也可以谈论半结构化数据,它们具有某种结构,但这种结构可能会有很大差异。
| 结构化 | 半结构化 | 非结构化 |
|---|---|---|
| 包含电话号码的人名单 | 维基百科页面包含链接 | 《大英百科全书》文本 |
| 建筑物中所有房间每分钟的温度记录,持续20年 | 科学论文集以JSON格式包含作者、出版日期和摘要 | 公司文档文件共享 |
| 进入建筑物的所有人的年龄和性别数据 | 互联网页面 | 监控摄像头的原始视频流 |
有很多可能的数据来源,不可能列出所有这些来源!不过,让我们提及一些常见的数据获取地点:
通过了解不同的数据来源,你可以思考数据科学技术可以应用于的不同场景,从而更好地了解情况并改进业务流程。
在数据科学中,我们专注于数据旅程的以下步骤:
当然,根据实际数据,某些步骤可能缺失(例如,当我们已经有了数据库中的数据,或者不需要模型训练时),或者某些步骤可能需要重复几次(例如数据处理)。
在过去的十年里,许多企业开始认识到数据在制定业务决策中的重要性。为了将数据科学原则应用于企业的运营,首先需要收集一些数据,即将业务流程转化为数字形式。这被称为数字化。将数据科学技术应用于这些数据以指导决策可以带来显著的生产力提升(甚至业务转型),称为数字化转型。
让我们考虑一个例子。假设我们有一个在线向学生授课的数据科学课程(就像这个课程一样),我们希望使用数据科学来改进它。我们如何做呢?
我们可以从问“什么可以被数字化?”开始。最简单的方法是测量每个学生完成每个模块所花费的时间,并通过在每个模块结束时进行多项选择测试来衡量获得的知识。通过对所有学生完成时间的平均值,我们可以找出哪些模块对学生来说最难,并努力简化它们。
你可能会认为这种方法不理想,因为模块长度可能不同。更公平的做法可能是将完成时间除以模块长度(以字符数量计),然后比较这些值。
当我们开始分析多项选择测试的结果时,我们可以尝试确定学生难以理解的概念,并利用这些信息改进内容。为此,我们需要设计测试,使每个问题映射到某个概念或知识块。
如果我们想要更加复杂,我们可以绘制每个模块完成时间与学生年龄类别之间的关系图。我们可能会发现对于某些年龄类别,完成模块所需的时间过长,或者学生在完成之前就放弃了。这可以帮助我们为模块提供年龄建议,并减少人们的失望感。
在这个挑战中,我们将通过查看文本来寻找与数据科学领域相关的概念。我们将取一篇关于数据科学的维基百科文章,下载并处理文本,然后构建一个像这样的词云:

访问 notebook.ipynb 查看代码。你也可以运行代码,看看它是如何实时执行所有数据转换的。
如果你不了解如何在Jupyter笔记本中运行代码,请参阅this article。
本课程由Dmitry Soshnikov撰写
声明:
本文件灏天文库团队进行了翻译。尽管我们力求准确,但请注意,翻译可能包含错误或不准确之处。原文档以其原始语言为准。我们不对因使用此翻译而产生的任何误解或误译负责。