17.云中的数据科学入门


文档摘要

云中的数据科学入门 插图由@sketchthedocs绘制 :---: 云中的数据科学:入门 - 插图由@nitya绘制 在本课中,您将学习云计算的基本原理,然后了解为什么使用云服务来运行您的数据科学项目会很有趣,并且我们将看一些在云中运行的数据科学项目的示例。 课前测验 什么是云? 云,或云计算,是通过互联网提供的一系列按需付费的计算服务。这些服务包括存储、数据库、网络、软件、分析和智能服务等解决方案。 我们通常将公有云、私有云和混合云区分为以下几种: 公有云:公有云是由第三方云服务提供商拥有并运营的,它通过互联网向公众提供计算资源。 私有云:私有云是指由单个企业或组织专用的云计算资源,其服务和基础设施在私有网络上维护。 混合云:混合云是一个结合了公有云和私有云的系统。

云中的数据科学入门

插图由@sketchthedocs绘制
云中的数据科学:入门 - 插图由@nitya绘制

在本课中,您将学习云计算的基本原理,然后了解为什么使用云服务来运行您的数据科学项目会很有趣,并且我们将看一些在云中运行的数据科学项目的示例。

课前测验

什么是云?

云,或云计算,是通过互联网提供的一系列按需付费的计算服务。这些服务包括存储、数据库、网络、软件、分析和智能服务等解决方案。

我们通常将公有云、私有云和混合云区分为以下几种:

  • 公有云:公有云是由第三方云服务提供商拥有并运营的,它通过互联网向公众提供计算资源。
  • 私有云:私有云是指由单个企业或组织专用的云计算资源,其服务和基础设施在私有网络上维护。
  • 混合云:混合云是一个结合了公有云和私有云的系统。用户可以选择在本地数据中心运行数据和应用程序,同时允许它们在一处或多处公有云上运行。

大多数云计算服务可以归入三类:基础设施即服务(IaaS)、平台即服务(PaaS)和软件即服务(SaaS)。

  • 基础设施即服务(IaaS):用户租用IT基础设施,如服务器和虚拟机(VM)、存储、网络和操作系统。
  • 平台即服务(PaaS):用户租用一个用于开发、测试、交付和管理软件应用的环境。用户不必担心设置或管理所需的底层基础设施,如服务器、存储、网络和数据库。
  • 软件即服务(SaaS):用户可以通过互联网访问软件应用,通常是按订阅方式获取。用户不需要担心托管和管理软件应用,也不需要处理底层基础设施或维护工作,如软件升级和安全补丁。

一些最大的云服务提供商包括亚马逊网络服务(AWS)、谷歌云平台(GCP)和微软Azure。

为什么选择云进行数据科学?

开发人员和IT专业人员选择使用云的原因有很多,包括以下几点:

  • 创新:您可以利用云提供商提供的创新服务直接集成到您的应用程序中。
  • 灵活性:您只需支付所需的服务,并可以从广泛的服务中进行选择。通常按需付费,并根据不断变化的需求调整服务。
  • 预算:您无需初始投资购买硬件和软件,也不必建立和运行现场数据中心,只需为实际使用的资源付费。
  • 可扩展性:您的资源可以根据项目的需要进行扩展,这意味着您的应用程序可以根据外部因素的变化随时使用更多的计算能力、存储和带宽。
  • 生产力:您可以专注于业务,而不是花费时间在可以由他人管理的任务上,例如管理数据中心。
  • 可靠性:云计算提供了多种连续备份数据的方式,您可以设置灾难恢复计划,以确保在危机时刻业务和服务仍能继续运行。
  • 安全性:您可以从政策、技术和控制措施中受益,从而增强项目的安全性。

这些都是人们选择使用云服务的一些常见原因。现在我们已经更好地理解了云是什么及其主要优势,接下来我们将更具体地探讨数据科学家和处理数据的开发人员的工作,以及云如何帮助他们应对可能遇到的各种挑战:

  • 存储大量数据:与其购买、管理和保护大型服务器,您可以在云中直接存储数据,使用诸如Azure Cosmos DB、Azure SQL 数据库和Azure Data Lake Storage等解决方案。
  • 执行数据集成:数据集成是数据科学的一个重要部分,它使您能够从数据收集过渡到采取行动。借助云中提供的数据集成服务,您可以从各种来源收集、转换和整合数据到单一的数据仓库中,使用Data Factory。
  • 处理数据:处理大量数据需要大量的计算能力,不是每个人都能获得足够强大的机器,这就是为什么许多人选择直接利用云的巨大计算能力来运行和部署他们的解决方案。
  • 使用数据分析服务:像Azure Synapse Analytics、Azure Stream Analytics和Azure Databricks这样的云服务可以帮助您将数据转化为可操作的洞察。
  • 使用机器学习和数据智能服务:您可以使用云提供商提供的机器学习算法,例如AzureML。您还可以使用诸如语音转文字、文字转语音、计算机视觉等认知服务。

云中的数据科学示例

让我们通过几个场景来使其更加具体。

实时社交媒体情感分析

我们将从一个常见的机器学习研究场景开始:实时社交媒体情感分析。

假设您经营一个新闻网站,想要利用实时数据来了解读者可能感兴趣的内容。为了更多地了解这一点,您可以构建一个程序,对来自Twitter发布的数据进行实时情感分析,针对与读者相关的主题。

您将关注的关键指标是特定主题(话题标签)的推文数量和情感,后者是通过执行情感分析的分析工具来确定的。

创建此项目的步骤如下:

  • 创建一个事件中心来收集来自Twitter的数据流
  • 配置并启动一个Twitter客户端应用程序,该应用程序将调用Twitter流媒体API
  • 创建一个流分析作业
  • 指定作业输入和查询
  • 创建输出接收器并指定作业输出
  • 启动作业

要查看完整的流程,请参阅文档

科学论文分析

我们再来看另一个由课程作者之一Dmitry Soshnikov创建的项目示例。

Dmitry创建了一个工具,用于分析COVID相关论文。通过查看这个项目,您将了解到如何创建一个工具,从中提取知识,获得见解,并帮助研究人员高效地浏览大量论文。

以下是该项目的不同步骤:

  • 使用健康文本分析提取和预处理信息
  • 使用Azure ML并行处理
  • 使用Cosmos DB存储和查询信息
  • 使用Power BI创建一个交互式仪表板,用于数据探索和可视化

要查看完整的流程,请访问Dmitry的博客

正如您所见,我们可以利用云服务以多种方式执行数据科学。

注释

来源:

课后测验

课后测验

作业

市场调研

**声明**: 本文件灏天文库团队进行了翻译。尽管我们力求准确,但请注意,翻译可能包含错误或不准确之处。原文档以其原始语言为准。我们不对因使用此翻译而产生的任何误解或误译负责。

发布者: 作者: 转发
评论区 (0)
U