2.数据伦理简介

文档摘要

数据伦理简介插图由@sketchthedocs绘制 :---: 数据科学伦理 - 插图由[@nitya绘制我们都是生活在数据化世界的“数据公民”。市场趋势表明，到2022年，三分之一的大型组织将通过在线市场和交易所买卖其数据。作为应用程序开发者，我们将更容易且更便宜地将数据驱动的洞察力和算法驱动的自动化整合到日常用户体验中。但随着人工智能变得普遍，我们也需要了解算法在大规模使用时可能带来的潜在危害。趋势还显示，到2025年，我们将创建和消费超过180泽字节的数据。作为数据科学家，这使我们能够以前所未有的水平访问个人数据。这意味着我们可以为用户构建行为档案，并以创造一种“自由选择的幻觉”的方式影响决策，同时可能会引导用户走向我们偏好的结果。这也引发了关于数据隐私和个人保护的更广泛问题。

数据伦理简介

![插图由@sketchthedocs绘制
数据科学伦理 - 插图由@nitya绘制

我们都是生活在数据化世界的“数据公民”。

市场趋势表明，到2022年，三分之一的大型组织将通过在线市场和交易所买卖其数据。作为应用程序开发者，我们将更容易且更便宜地将数据驱动的洞察力和算法驱动的自动化整合到日常用户体验中。但随着人工智能变得普遍，我们也需要了解算法在大规模使用时可能带来的潜在危害。

趋势还显示，到2025年，我们将创建和消费超过180泽字节的数据。作为数据科学家，这使我们能够以前所未有的水平访问个人数据。这意味着我们可以为用户构建行为档案，并以创造一种“自由选择的幻觉”的方式影响决策，同时可能会引导用户走向我们偏好的结果。这也引发了关于数据隐私和个人保护的更广泛问题。

数据伦理现在是数据科学和工程的“必要护栏”，帮助我们最小化数据驱动行动可能带来的潜在危害和意外后果。Gartner的人工智能炒作周期确定了数字伦理、负责任的人工智能和人工智能治理相关的相关趋势，这些都是推动更大规模趋势的关键驱动因素，如人工智能的“民主化”和“工业化”。

Gartner的人工智能炒作周期 - 2020

在这节课中，我们将探索数据伦理这一引人入胜的领域——从核心概念和挑战，到案例研究和应用人工智能概念（如治理），这些都有助于在处理数据和人工智能的团队和组织中建立一种伦理文化。

课前测验

基本定义

让我们先理解一些基本术语。

“伦理”一词源自希腊语“ethikos”（及其词根“ethos”），意为“品格或道德品质”。

伦理是指规范我们在社会中行为的共享价值观和道德原则。伦理基于广泛接受的对“正确与错误”的认知，而不是法律。然而，伦理考虑可以影响公司治理倡议和政府法规，从而为合规提供更多的激励措施。

数据伦理是伦理学的一个新分支，它“研究和评估与数据、算法及相关实践相关的道德问题”。在这里，“数据”侧重于生成、记录、整理、处理、传播、共享和使用方面的行为；“算法”侧重于人工智能、代理、机器学习和机器人；“实践”则侧重于负责任创新、编程、黑客攻击和伦理准则等主题。

应用伦理是伦理考虑的实际应用。这是在现实世界的行为、产品和过程中积极调查伦理问题的过程，并采取纠正措施确保这些行为与我们的伦理价值观保持一致。

伦理文化是关于将应用伦理操作化，以确保我们的伦理原则和实践在整个组织中以一致且可扩展的方式被采纳。成功的伦理文化定义了全组织范围内的伦理原则，提供了有意义的合规激励措施，并通过鼓励和放大期望的行为来强化伦理规范。

伦理概念

在这一部分，我们将讨论数据伦理中的共享价值观（原则）和伦理挑战（问题）——并通过案例研究帮助你理解这些概念在现实世界中的应用。

1. 伦理原则

每个数据伦理策略都始于定义伦理原则——描述可接受行为的“共享价值观”，并指导我们数据和人工智能项目的合规行动。这些原则可以在个人或团队层面定义。然而，大多数大组织会在企业层面定义这些原则，并在所有团队中一致执行。

示例： 微软的负责任人工智能使命声明写道：“我们致力于推进由以人为本的伦理原则驱动的人工智能”——列出了以下框架中的六个伦理原则：

微软负责任人工智能

让我们简要探讨一下这些原则。透明度和问责制是其他原则的基础，因此我们从这里开始：

问责制使从业者对其数据和人工智能运营负责，并遵守这些伦理原则。
透明度确保数据和人工智能行动对用户是可理解的（可解释的），解释决策背后的“什么”和“为什么”。
公平性——重点在于确保人工智能公平对待所有人，解决数据和系统中的任何系统性或隐性社会技术偏见。
可靠性和安全性——确保人工智能以符合定义的价值观的方式行为，最小化潜在的危害或意外后果。
隐私和安全——涉及理解数据血缘，并为用户提供数据隐私和相关保护。
包容性——涉及有意设计人工智能解决方案，适应满足广泛的用户需求和能力。

想想你的数据伦理使命宣言可能是什么。探索其他组织的负责任人工智能框架——例如IBM、谷歌和脸书的示例。它们有哪些共同的价值观？这些原则如何与它们运营的AI产品或行业相关？

2. 伦理挑战

一旦我们定义了伦理原则，下一步就是评估我们的数据和人工智能行动是否与这些共享价值观一致。考虑你的行动分为两类：数据收集和算法设计。

在数据收集方面，行动可能涉及个人数据或个人身份信息（PII），用于识别活生生的个体。这包括多种非个人数据项目，这些数据集体识别一个人。伦理挑战可能涉及数据隐私、数据所有权以及知情同意和用户知识产权等相关主题。

在算法设计方面，行动涉及收集和整理数据集，然后使用这些数据集训练和部署数据模型，以预测结果或在现实世界中自动化决策。伦理挑战可能来自数据集偏差、数据质量问题、不公平和误表征等问题，其中一些问题具有系统性。

在两种情况下，伦理挑战突显了我们的行动可能与共享价值观产生冲突的领域。为了检测、缓解、减少或消除这些问题，我们需要就我们的行动提出道德上的“是/否”问题，然后根据需要采取纠正措施。让我们来看看一些伦理挑战以及它们引发的道德问题：

2.1 数据所有权

数据收集通常涉及可以识别数据主体的个人数据。数据所有权涉及与数据的创建、处理和分发相关的控制权和用户权利。

我们需要问的问题是：

谁拥有数据？（用户或组织）
数据主体有哪些权利？（例如：访问、删除、可携带性）
组织有哪些权利？（例如：纠正恶意用户评论）

2.2 知情同意

知情同意定义了用户同意某项行动（如数据收集）的行动，前提是他们充分了解相关信息，包括目的、潜在风险和替代方案。

需要探索的问题有：

用户（数据主体）是否同意数据捕获和使用？
用户是否了解数据被捕获的目的？
用户是否了解参与可能带来的潜在风险？

2.3 知识产权

知识产权是指人类努力产生的无形创造，可能对个人或企业具有经济价值。

需要探索的问题有：

收集的数据是否对某个用户或企业具有经济价值？
用户是否拥有知识产权？
组织是否拥有知识产权？
如果这些权利存在，我们如何保护它们？

2.4 数据隐私

数据隐私或信息隐私是指保护用户隐私和保护用户身份不受个人可识别信息侵害。

需要探索的问题有：

用户的（个人）数据是否受到黑客和泄露的保护？
用户的数据是否仅限于授权用户和上下文访问？
用户匿名性在数据共享或分发时是否得到保留？
用户是否可以从匿名数据集中被重新识别？

2.5 “被遗忘权”

被遗忘权允许用户要求删除与其相关的个人数据。
《被遗忘的权利》或《被删除的权利》为用户提供了额外的个人数据保护。具体来说，它赋予用户请求从互联网搜索和其他位置删除个人数据的权利——在特定情况下——允许他们在网络上重新开始，不受过去行为的影响。

要探讨的问题包括：

系统是否允许数据主体请求删除？
用户撤回同意是否应触发自动删除？
数据是否是在未经同意或非法手段下收集的？
我们是否符合政府关于数据隐私的规定？

2.6 数据集偏差

数据集或《收集偏差》是指选择非代表性数据子集进行算法开发，从而在不同群体的结果中产生潜在的不公平性。偏差类型包括选择偏差、志愿偏差和工具偏差。

要探讨的问题包括：

我们是否招募了一组具有代表性的数据主体？
我们是否测试了我们收集或整理的数据集是否存在各种偏差？
我们能否缓解或消除发现的偏差？

2.7 数据质量

《数据质量》关注用于开发算法的精心策划的数据集的有效性，检查特征和记录是否满足我们的人工智能目的所需的准确性和一致性要求。

要探讨的问题包括：

我们是否为我们的用例捕获了有效的特征？
数据是否在不同的数据源中一致地被捕获？
数据集是否完整，涵盖各种条件或场景？
信息是否准确地反映了现实？

2.8 算法公平性

《算法公平性》检查算法设计是否系统性地歧视特定子群体，导致《潜在伤害》（例如，在资源分配方面，某些群体被剥夺资源；在服务质量方面，某些子群体的AI准确性低于其他群体）。

要探讨的问题包括：

我们是否评估了不同子群体和条件下的模型准确性？
我们是否仔细审查了系统中的潜在危害（例如，刻板印象）？
我们能否修订数据或重新训练模型以缓解已识别的危害？

探索资源，如《AI公平性检查表》，了解更多内容。

2.9 误导性表达

《数据误导》涉及询问我们是否以一种欺骗的方式传达来自诚实地报告的数据的见解，以支持一个期望的叙事。

要探讨的问题包括：

我们是否报告了不完整或不准确的数据？
我们是否以一种导致误导结论的方式可视化数据？
我们是否使用选择性统计技术来操纵结果？
是否有其他解释可能会得出不同的结论？

2.10 自由选择

《自由选择的幻觉》发生在系统“选择架构”使用决策算法引导人们朝着一个偏好的结果，同时似乎给他们提供选项和控制权。这些《黑暗模式》可能导致用户的社会和经济伤害。因为用户的决策影响行为档案，这些行动可能放大或延长这些伤害的影响。

要探讨的问题包括：

用户是否理解做出该选择的后果？
用户是否意识到（替代）选择及其各自的优缺点？
用户能否逆转自动化或受影响的选择？

3. 案例研究

为了将这些伦理挑战置于现实世界的背景中，看看当这些伦理违规被忽视时，可能对个人和社会造成的潜在危害和后果是有帮助的。

以下是几个例子：

伦理挑战	案例研究
知情同意	1972年 -《塔斯基吉梅毒研究》：参与研究的非裔美国男性被告知可以获得免费医疗服务，但研究人员没有告知他们诊断结果或治疗的可用性。许多受试者死亡，他们的伴侣或孩子也受到影响；该研究持续了40年。
数据隐私	2007年 - 《Netflix数据奖》提供了来自5万名客户的1000万匿名电影评分，以帮助改进推荐算法。然而，研究人员能够通过外部数据集（如IMDb评论）将匿名数据与可识别数据相关联，从而“去匿名化”一些Netflix用户。
收集偏差	2013年 - 波士顿市开发了Street Bump应用程序，让市民报告坑洞，从而帮助城市更好地了解和修复道路问题。然而，由于低收入群体较少拥有汽车和手机，他们的道路问题在该应用中不可见。开发者与学者合作解决公平性和数字鸿沟问题。
算法公平性	2018年 - MIT的《性别阴影研究》评估了性别分类AI产品的准确性，揭示了女性和有色人种在准确性上的差距。2019年的《苹果信用卡》似乎给女性的信用额度比男性少。两者都揭示了算法偏差导致社会经济伤害的问题。
数据误导	2020年 - 佐治亚州公共卫生部发布的COVID-19图表似乎通过非时间顺序排列误导公众关于确诊病例的趋势。这展示了通过可视化技巧进行误导的例子。
自由选择的幻觉	2020年 - 学习应用ABCmouse支付了1000万美元以解决FTC投诉，家长被诱骗订阅无法取消的服务。这展示了选择架构中的黑暗模式，用户被引导做出有害选择。
数据隐私和用户权利	2021年 - Facebook数据泄露事件曝光了5.3亿用户的个人信息，导致与FTC达成50亿美元的和解。然而，Facebook拒绝通知用户，违反了数据透明度和访问的权利。

想探索更多案例研究？查看以下资源：

《伦理未解之谜》 - 跨行业伦理困境。
《数据科学伦理课程》 - 探讨标志性案例研究。
《事情出错的地方》 - 包含示例的德昂清单。

思考你所看到的案例研究——你是否经历过或受到类似的伦理挑战的影响？你能想到至少一个说明我们在本节讨论的伦理挑战的案例吗？

应用伦理

我们已经讨论了伦理概念、挑战以及现实世界中的案例研究。但是，我们如何在项目中开始应用伦理原则和实践？我们又如何将这些实践操作化以实现更好的治理？让我们探索一些现实世界的解决方案：

1. 职业准则

职业准则为组织提供了一种激励成员支持其伦理原则和使命声明的方法。这些准则是专业行为的道德指南，帮助员工或成员做出与组织原则相一致的决策。它们的效果取决于成员自愿遵守的程度；然而，许多组织通过提供额外奖励和惩罚来激励成员遵守。

示例包括：

《牛津慕尼黑》伦理守则
《数据科学协会》行为准则（2013年创建）
《ACM伦理和职业行为守则》（自1993年起）

你是否属于专业工程或数据科学组织？探索它们的网站，看看它们是否定义了职业伦理守则。这说明了它们的伦理原则是什么？它们如何“激励”成员遵守守则？

2. 伦理检查表

虽然职业准则定义了从业者的必要伦理行为，但它们在大规模项目中的执行存在已知的局限性。相反，许多数据科学专家倡导使用检查表，这些检查表可以将原则与实践更确定和可操作地联系起来。

检查表将问题转换为“是/否”任务，可以操作化，并作为标准产品发布工作流程的一部分进行跟踪。

示例包括：

《德昂》 - 一个从行业建议创建的一般数据伦理检查表，具有易于集成的命令行工具。
《隐私审计检查表》 - 提供从法律和社会暴露角度处理信息实践的一般指导。
AI公平检查清单 - 由AI从业者创建，旨在支持将公平性检查纳入AI开发周期。
数据和AI伦理的22个问题 - 更开放的框架，结构化为探索设计、实施和组织背景中的伦理问题。

3. 伦理法规

伦理是定义共享价值观并自愿做正确的事。合规是指在有法律规定的前提下遵循法律。治理广泛涵盖了组织运营的所有方式，以执行伦理原则并遵守已建立的法律。

如今，治理在组织内有两种形式。首先，它涉及定义伦理AI原则，并建立实践以在整个组织的AI相关项目中实现采用。其次，它涉及遵守所有政府强制的数据保护法规，适用于其运营的地区。

数据保护和隐私法规示例：

1974, 美国隐私法 - 管理联邦政府对个人信息的收集、使用和披露。
1996, 美国健康保险可移植性和责任法案（HIPAA） - 保护个人健康数据。
1998, 美国儿童在线隐私保护法（COPPA） - 保护13岁以下儿童的数据隐私。
2018, 通用数据保护条例（GDPR） - 提供用户权利、数据保护和隐私。
2018, 加州消费者隐私法（CCPA） - 给消费者更多关于其（个人）数据的权利。
2021, 中国的个人信息保护法刚刚通过，成为全球最严格的数据隐私法规之一。

欧盟定义的《通用数据保护条例》（GDPR）仍然是当今最具影响力的隐私法规之一。你知道它还定义了8项用户权利来保护公民的数字隐私和个人数据吗？了解这些内容及其重要性。

4. 伦理文化

请注意，在合规（做到“法律条文”要求的程度）与解决系统性问题（如僵化、信息不对称和分配不公）之间仍然存在无形的差距，这些问题可能会加速AI武器化的速度。

后者需要采取协作方法来定义伦理文化，这些方法能够在整个行业内的组织之间建立情感联系和一致的共享价值观。这需要组织内更正式化的数据伦理文化——允许任何人拉停安灯绳（在流程早期提出伦理关切），并将伦理评估（例如，在招聘过程中）作为AI项目团队组建的核心标准。

课后测验

复习与自学

课程和书籍有助于理解核心的伦理概念和挑战，而案例研究和工具则有助于在现实世界环境中应用伦理实践。以下是一些入门资源。

机器学习入门 - 微软关于公平性的课程。
负责任AI的原则 - 微软学习的免费学习路径。
数据科学与伦理 - O'Reilly电子书（M. Loukides, H. Mason 等）。
数据科学伦理 - 密歇根大学的在线课程。
伦理揭穿 - 德克萨斯大学的案例研究。

作业

撰写数据伦理案例研究

声明:
本文件灏天文库团队进行了翻译。尽管我们力求准确，但请注意，翻译可能包含错误或不准确之处。原文档以其原始语言为准。我们不对因使用此翻译而产生的任何误解或误译负责。