3.数据定义


文档摘要

数据定义 素描笔记由 (@sketchthedocs)绘制 :---: 数据定义 - 素描笔记由 [@nitya 绘制 数据是用于发现和支持明智决策的事实、信息、观察和测量结果。数据点是数据集中的单个单元,而数据集是由多个数据点组成的集合。数据集可能具有不同的格式和结构,通常取决于其来源或数据的来源地。例如,一家公司的月度收益可能以电子表格形式存在,但智能手表每小时的心率数据可能以 JSON 格式存在。数据科学家通常会在数据集中处理不同类型的数据。 本课重点介绍通过数据的特征和来源识别和分类数据。 课前测验 如何描述数据 原始数据 原始数据是从其源头以初始状态获取的数据,尚未经过分析或组织。为了理解数据集中的情况,需要将其组织成人类和技术工具可以理解的格式。

数据定义

![ 素描笔记由 (@sketchthedocs)绘制
数据定义 - 素描笔记由 @nitya 绘制

数据是用于发现和支持明智决策的事实、信息、观察和测量结果。数据点是数据集中的单个单元,而数据集是由多个数据点组成的集合。数据集可能具有不同的格式和结构,通常取决于其来源或数据的来源地。例如,一家公司的月度收益可能以电子表格形式存在,但智能手表每小时的心率数据可能以 JSON 格式存在。数据科学家通常会在数据集中处理不同类型的数据。

本课重点介绍通过数据的特征和来源识别和分类数据。

课前测验

如何描述数据

原始数据

原始数据是从其源头以初始状态获取的数据,尚未经过分析或组织。为了理解数据集中的情况,需要将其组织成人类和技术工具可以理解的格式。数据集的结构描述了其组织方式,并可以分为结构化、非结构化和半结构化三种类型。这些类型的结构会根据来源不同而有所变化,但最终归为这三类。

定量数据

定量数据是数据集中的数值观察结果,通常可以进行分析、测量并使用数学方法处理。一些定量数据的例子包括:一个国家的人口、一个人的身高或一家公司的季度收入。通过进一步分析,定量数据可用于发现空气质量指数(AQI)的季节性趋势或估计典型工作日上下班高峰期的交通概率。

定性数据

定性数据,也称为分类数据,是无法客观衡量的数据,与定量数据的观察结果不同。它通常是各种主观数据格式,捕捉事物的质量,如产品或过程。有时,定性数据是数值化的,但通常不会用数学方法处理,例如电话号码或时间戳。一些定性数据的例子包括:视频评论、汽车的品牌和型号或你最亲近的朋友最喜欢的颜色。定性数据可用于了解消费者最喜欢哪些产品或识别求职简历中的热门关键词。

结构化数据

结构化数据是按行和列组织的数据,每一行都有相同的一组列。列代表特定类型的价值,并用描述该价值所代表内容的名称来标识,而行包含实际值。列通常会对值有一套特定的规则或限制,以确保值准确地表示列。例如,在客户电子表格中,每一行都必须有一个电话号码,且电话号码永远不会包含字母。可能对电话号码列应用规则,以确保它永远不会为空且只包含数字。

结构化数据的一个优点是它可以以一种可以与其他结构化数据关联的方式组织。然而,由于数据设计为以特定方式组织,因此对其整体结构进行更改需要大量努力。例如,在客户电子表格中添加一个不能为空的电子邮件列意味着你需要考虑如何将这些值添加到现有客户的行中。

结构化数据的例子:电子表格、关系数据库、电话号码、银行对账单

非结构化数据

非结构化数据通常不能被分类成行或列,也没有格式或规则。因为非结构化数据在结构上限制较少,所以与结构化数据集相比更容易添加新信息。如果每两分钟采集一次气压数据的传感器现在可以测量并记录温度,那么如果它是非结构化的,则不需要修改现有数据。但是,这可能会使分析或调查此类数据花费更长时间。例如,一名科学家想从传感器数据中找出上个月的平均温度,但发现传感器在某些记录中输入了一个“e”来表示它坏了而不是一个典型的数字,这意味着数据不完整。

非结构化数据的例子:文本文件、短信、视频文件

半结构化数据

半结构化数据具有使其成为结构化和非结构化数据组合的特性。它通常不符合行和列的格式,但以被认为是有组织的方式组织,并可能遵循固定的格式或规则。结构将因来源而异,从定义良好的层次结构到允许轻松整合新信息的更灵活的形式。元数据是帮助决定数据如何组织和存储的指示器,并将根据数据类型有不同的名称。一些常见的元数据名称有标签、元素、实体和属性。例如,一封典型的电子邮件将有一个主题、正文和一组收件人,并可以根据发送的时间或对象进行组织。

半结构化数据的例子:HTML、CSV 文件、JavaScript 对象表示法(JSON)

数据源

数据源是数据生成的初始位置,或“生活”的地方,将根据收集时间和方式的不同而有所不同。由用户生成的数据被称为原始数据,而次要数据则来自一个为通用用途收集数据的来源。例如,一组科学家在雨林中收集观察结果被认为是原始数据,如果他们决定与其他人分享,那么对于那些使用的人来说就变成了次要数据。

数据库是一种常见的数据源,依赖于数据库管理系统来托管和维护数据,用户使用称为查询的命令来探索数据。作为数据源的文件可以是音频、图像和视频文件以及 Excel 等电子表格。互联网是托管数据的常见位置,在这里可以找到数据库和文件。应用程序编程接口(API)允许程序员通过互联网创建共享数据的方法,而网络抓取则是从网页提取数据的过程。处理数据的课程重点介绍了如何使用各种数据源。

结论

在本课中,我们学习了:

  • 什么是数据
  • 数据是如何描述的
  • 数据是如何分类和分类的
  • 数据可以在哪里找到

挑战

Kaggle 是一个优秀的开放数据集来源。使用 数据集搜索工具 找到一些有趣的数据集,并根据以下标准对其中 3-5 个数据集进行分类:

  • 数据是定量还是定性的?
  • 数据是结构化、非结构化还是半结构化的?

课后测验

复习与自学

  • 微软学习模块《分类您的数据》(Classify your Data) 详细介绍了结构化、半结构化和非结构化数据。

作业

分类数据集

声明:
本文件灏天文库团队进行了翻译。尽管我们力求准确,但请注意,翻译可能包含错误或不准确之处。原文档以其原始语言为准。我们不对因使用此翻译而产生的任何误解或误译负责。


发布者: 作者: 转发
评论区 (0)
U