20.数据科学在现实世界中的应用


文档摘要

数据科学在现实世界中的应用 速写笔记由@sketchthedocs绘制 :--------------------------------------------------------------------------------------------------------------: 现实世界中的数据科学 - 速写笔记由@nitya绘制 我们即将结束这次学习之旅! 我们从数据科学和伦理学的定义开始,探索了各种数据分析和可视化工具与技术,回顾了数据科学生命周期,并了解了如何使用云计算服务来扩展和自动化数据科学工作流。所以你可能在想:“我该如何将这些学到的知识应用到实际场景中呢?

数据科学在现实世界中的应用

 速写笔记由@sketchthedocs绘制
现实世界中的数据科学 - 速写笔记由@nitya绘制

我们即将结束这次学习之旅!

我们从数据科学和伦理学的定义开始,探索了各种数据分析和可视化工具与技术,回顾了数据科学生命周期,并了解了如何使用云计算服务来扩展和自动化数据科学工作流。所以你可能在想:“我该如何将这些学到的知识应用到实际场景中呢?”

在这节课中,我们将探讨数据科学在各个行业的实际应用,并深入研究具体示例,涉及研究、数字人文和可持续性等领域。我们还将介绍学生项目的机会,并以一些有用的资源作为总结,帮助你继续你的学习旅程!

预习测验

预习测验

数据科学与行业

由于人工智能的普及,开发人员现在更容易设计和整合AI驱动的决策和基于数据的洞察力到用户体验和开发流程中。以下是一些数据科学在行业中的实际应用示例:

  • Google流感趋势预测 使用数据科学将搜索关键词与流感趋势相关联。虽然这种方法存在缺陷,但它提高了人们对基于数据的医疗预测可能性(以及挑战)的认识。

  • UPS路线预测 —— 解释了UPS如何利用数据科学和机器学习来预测最佳路线,考虑天气条件、交通模式、交货截止日期等因素。

  • 纽约出租车路线可视化 —— 利用《信息自由法》收集的数据帮助可视化了纽约出租车一天的生活,让我们了解它们如何在繁忙的城市中导航、赚取收入以及每24小时内的行程时间。

  • 优步数据科学工作台 —— 利用每天从数百万次优步行程中收集的数据(包括上下车地点、行程时间、首选路线等),构建了一个数据分析工具,帮助进行定价、安全、欺诈检测和导航决策。

  • 体育分析 —— 注重预测分析(团队和球员分析——想想《点球成金》——以及粉丝管理)和数据可视化(团队和粉丝仪表板、比赛等),应用于人才选拔、体育博彩和库存/场地管理等领域。

  • 银行中的数据科学 —— 强调了数据科学在金融行业中的价值,应用范围从风险建模和欺诈检测到客户细分、实时预测和推荐系统。预测分析还推动了诸如信用评分等关键指标的发展。

  • 医疗保健中的数据科学 —— 强调了医疗影像(如MRI、X光、CT扫描)、基因组学(DNA测序)、药物开发(风险评估、成功预测)、预测分析(患者护理和供应物流)、疾病追踪与预防等应用。

现实世界中的数据科学应用 图片来源:Data Flair: 6个令人惊叹的数据科学应用

图中展示了其他领域和应用数据科学技术的例子。想要探索更多应用?请查看下面的“复习与自学”部分。

数据科学与研究

 速写笔记由@sketchthedocs绘制
数据科学与研究 - 速写笔记由@nitya绘制

尽管实际应用往往集中在大规模的行业用例上,但研究应用和项目可以从两个角度提供帮助:

  • 创新机会 —— 探索高级概念的快速原型制作和下一代应用程序的用户体验测试。
  • 部署挑战 —— 调查数据科学技术在实际环境中的潜在危害或意外后果。

对于学生而言,这些研究项目不仅可以提供学习和合作的机会,还能加深对主题的理解,并扩大对相关领域工作的人员或团队的认识和参与度。那么研究项目是什么样的,它们如何产生影响?

让我们看一个例子——来自Joy Buolamwini(麻省理工学院媒体实验室)的性别阴影研究,该研究与Timnit Gebru(当时在微软研究院)共同撰写了一篇具有影响力的论文,其重点在于:

  • 什么:该项目的目标是评估基于性别和肤色的自动面部分析算法和数据集中的偏见
  • 为什么:面部分析用于执法、机场安检、招聘系统等领域——这些领域中不准确的分类(例如,由于偏见)可能导致受影响个人或群体的潜在经济损失和社会伤害。理解并消除或缓解偏见对于公平使用至关重要。
  • 怎么做:研究人员意识到现有基准测试主要使用较浅色皮肤的受试者,因此创建了一个新的数据集(1000多张图像),在性别和肤色方面更加平衡。该数据集用于评估三个性别分类产品的准确性(来自微软、IBM和Face++)。

结果显示,虽然总体分类准确性良好,但在不同子群之间存在明显的误差率差异——女性或深色皮肤类型的人被错误分类的概率更高,这表明存在偏见。

关键成果:强调了数据科学需要更代表性的数据集(平衡的子群)和更具包容性的团队(多样化的背景),以便更早地识别和消除或缓解此类偏见。这类研究努力也是许多组织定义负责任AI原则和实践的关键,旨在提高其AI产品和流程的公平性。

想了解微软的相关研究努力吗?

数据科学与人文

 速写笔记由@sketchthedocs绘制
数据科学与数字人文 - 速写笔记由@nitya绘制

数字人文被定义为“结合计算方法与人文研究的一系列实践和方法”。斯坦福大学的项目如“重启历史”和“诗意思维”展示了数字人文与数据科学之间的联系——强调网络分析、信息可视化、空间和文本分析等技术,可以帮助我们重新审视历史和文学数据集,从而获得新的见解和视角。

想要在这个领域探索和扩展一个项目吗?

探索“艾米莉·狄金森与情绪韵律”

查看"艾米莉·狄金森与情绪韵律"——这是Jen Looper提供的一个精彩示例,探讨如何利用数据科学重新审视熟悉的诗歌,并在新的语境下重新评估其意义及其作者的贡献。例如,我们能否通过分析诗歌的情绪或情感来预测其创作季节——这又能告诉我们作者在这段时间内的精神状态?

要回答这个问题,我们需要遵循数据科学的生命周期步骤:

  • Data Acquisition——收集用于分析的相关数据集。选项包括使用API(如诗歌数据库API)或通过工具(如Scrapy)从网页上抓取内容(如古腾堡计划)。
  • Data Cleaning——解释如何使用基本工具(如Visual Studio Code和Microsoft Excel)对文本进行格式化、清理和简化。
  • Data Analysis——解释如何将数据集导入“笔记本”中进行分析,使用Python包(如pandas、numpy和matplotlib)来组织和可视化数据。
  • Sentiment Analysis——解释如何整合云服务(如文本分析),使用低代码工具(如Power Automate)进行自动化数据处理工作流。

使用此工作流程,我们可以探索诗歌中的季节性影响,并帮助形成我们自己的作者视角。自己尝试一下——然后扩展笔记本以提出其他问题或用新方式可视化数据!

你可以使用数字人文工具包中的工具来探索这些研究方向。

数据科学与可持续发展

由@sketchthedocs绘制的草图
数据科学与可持续发展 - @nitya绘制的草图

2030年可持续发展目标于2015年由所有联合国成员采纳,确立了17个目标,其中包括专注于保护地球免受退化和气候变化的影响。微软可持续发展倡议支持这些目标,通过探索技术解决方案,以支持并构建更可持续的未来,重点是到2030年实现碳负排放、水资源正增长、零废物和生物多样性。

以可扩展且及时的方式解决这些挑战需要云规模的思维——以及大规模的数据。行星计算机计划为数据科学家和开发人员提供了四个组件,帮助他们完成这一任务:

  • 数据目录——包含数PB的地球系统数据(免费且Azure托管)。
  • 行星API——帮助用户跨空间和时间搜索相关数据。
  • Hub——供科学家处理大规模地理空间数据集的托管环境。
  • 应用程序——展示案例和工具,以获得可持续发展的洞察。

行星计算机项目目前处于预览阶段(截至2021年9月)——以下是开始为可持续发展解决方案做出贡献的方法:

思考如何使用数据可视化来揭示或放大有关气候变化和森林砍伐等领域的相关见解。或者思考如何利用这些见解创建新的用户体验,以激励人们采取更可持续的生活方式。

数据科学与学生

我们已经讨论了工业和研究中的实际应用,探索了数字人文和可持续发展中数据科学的应用示例。那么作为初学者,如何提升技能并分享你的专业知识呢?

以下是一些数据科学学生项目的例子,希望能激发你的灵感。

挑战

寻找推荐给初学者的数据科学项目的文章——比如 这50个主题领域这21个项目想法 或者 这16个包含源代码的项目。别忘了记录你的学习旅程并分享你的见解给大家。

课后测验

课后测验

复习与自学

想探索更多用例吗?以下是一些相关文章:

作业

探索一个行星计算机数据集

**声明**: 本文件灏天文库团队进行了翻译。尽管我们力求准确,但请注意,翻译可能包含错误或不准确之处。原文档以其原始语言为准。我们不对因使用此翻译而产生的任何误解或误译负责。

发布者: 作者: 转发
评论区 (0)
U