15.数据科学生命周期:分析


文档摘要

数据科学生命周期:分析 ![ 素描笔记由[@sketchthedocs] (https://sketchthedocs.dev) 创作 ](https://www.aiknowledge.cn/images/初学者的数据科学课程/15-Analyzing.webp) :---: 数据科学生命周期:分析 - 素描笔记由 @nitya 创作 预习测验 预习测验 在数据生命周期中进行分析可以确认数据能够回答提出的疑问或解决特定问题。这一步骤也可以集中于确认模型是否正确地解决了这些问题和疑问。本课程的重点是探索性数据分析(EDA),这是一种定义数据中的特征和关系的技术,可用于为建模准备数据。 我们将使用来自 Kaggle 的示例数据集来展示如何使用Python和Pandas库来实现这一点。

数据科学生命周期:分析

 素描笔记由[@sketchthedocs] (https://sketchthedocs.dev) 创作
数据科学生命周期:分析 - _素描笔记由 @nitya 创作 _

预习测验

预习测验

在数据生命周期中进行分析可以确认数据能够回答提出的疑问或解决特定问题。这一步骤也可以集中于确认模型是否正确地解决了这些问题和疑问。本课程的重点是探索性数据分析(EDA),这是一种定义数据中的特征和关系的技术,可用于为建模准备数据。

我们将使用来自 Kaggle 的示例数据集来展示如何使用Python和Pandas库来实现这一点。该数据集包含一些常见单词在电子邮件中的出现次数,这些电子邮件的来源是匿名的。请使用此目录中的 笔记本 来跟随操作。

探索性数据分析

生命周期的捕获阶段涉及获取数据以及当前的问题和疑问,但我们如何知道数据能否支持最终结果呢?
回想一下,数据科学家在获取数据时可能会问以下问题:

  • 我有足够的数据来解决这个问题吗?
  • 这个问题的数据质量是否可接受?
  • 如果通过这些数据发现了额外信息,我们是否应该考虑改变或重新定义目标?
    探索性数据分析是一种了解数据的过程,可以帮助回答这些问题,并识别处理数据集时的挑战。让我们关注一些用于实现这一目的的技术。

数据剖析、描述统计和Pandas

我们如何评估是否有足够的数据来解决这个问题?数据剖析可以通过描述统计技术总结并收集有关数据集的一些总体信息。数据剖析帮助我们理解我们可以利用什么,而描述统计则帮助我们理解有多少东西可用。

在之前的几节课中,我们已经使用Pandas提供了某些描述统计信息,如 describe() 函数。它提供了数值数据的计数、最大值和最小值、均值、标准差和分位数。使用描述统计方法如 describe() 函数可以帮助你评估你拥有多少数据以及是否需要更多。

抽样和查询

在一个大型数据集中探索一切可能非常耗时,通常这项任务会交给计算机来完成。然而,抽样是一个有用的工具,有助于理解数据,并使我们更好地理解数据集的内容及其代表的意义。通过样本,你可以应用概率和统计方法得出关于数据的一些一般结论。
虽然没有明确规定应抽取多少数据,但值得注意的是,你抽取的数据越多,对数据的一般化就越精确。
Pandas 库中有 sample() 函数,你可以在其中传递一个参数,指定你希望接收多少随机样本。

对数据进行一般查询可以帮助你回答一些你可能有的假设和问题。与抽样相反,查询允许你控制并对你有疑问的数据的特定部分进行关注。
Pandas 库中的 query() 函数 允许你选择列并通过检索的行获得关于数据的简单答案。

使用可视化进行探索

你不必等到数据彻底清洗和分析后才开始创建可视化。事实上,在探索过程中拥有视觉表示可以帮助你识别数据中的模式、关系和问题。此外,可视化提供了一种与不参与管理数据的人沟通的方式,也是分享和澄清捕获阶段未解决的额外问题的机会。参见关于可视化 部分 了解更多关于一些流行的视觉探索方式。

探索以识别不一致

本课中的所有主题都可以帮助识别缺失或不一致的值,但Pandas提供了检查这些值的函数。isna() 或 isnull() 可以检查缺失值。在你的数据中探索这些值的一个重要方面是探索它们为什么会变成这样。这可以帮助你决定采取哪些 措施来解决这些问题

预习测验

作业

探索答案

**声明**: 本文件灏天文库团队进行了翻译。尽管我们力求准确,但请注意,翻译可能包含错误或不准确之处。原文档以其原始语言为准。我们不对因使用此翻译而产生的任何误解或误译负责。

发布者: 作者: 转发
评论区 (0)
U