数据伦理简介 插图由@sketchthedocs绘制 :---: 数据科学伦理 - 插图由[@nitya绘制 我们都是生活在数据化世界的“数据公民”。 市场趋势表明,到2022年,三分之一的大型组织将通过在线市场和交易所买卖其数据。作为应用程序开发者,我们将更容易且更便宜地将数据驱动的洞察力和算法驱动的自动化整合到日常用户体验中。但随着人工智能变得普遍,我们也需要了解算法在大规模使用时可能带来的潜在危害。 趋势还显示,到2025年,我们将创建和消费超过180泽字节的数据。作为数据科学家,这使我们能够以前所未有的水平访问个人数据。这意味着我们可以为用户构建行为档案,并以创造一种“自由选择的幻觉”的方式影响决策,同时可能会引导用户走向我们偏好的结果。这也引发了关于数据隐私和个人保护的更广泛问题。
| 
让我们简要探讨一下这些原则。透明度和问责制是其他原则的基础,因此我们从这里开始:
想想你的数据伦理使命宣言可能是什么。探索其他组织的负责任人工智能框架——例如IBM、谷歌和脸书的示例。它们有哪些共同的价值观?这些原则如何与它们运营的AI产品或行业相关?
一旦我们定义了伦理原则,下一步就是评估我们的数据和人工智能行动是否与这些共享价值观一致。考虑你的行动分为两类:数据收集和算法设计。
在数据收集方面,行动可能涉及个人数据或个人身份信息(PII),用于识别活生生的个体。这包括多种非个人数据项目,这些数据集体识别一个人。伦理挑战可能涉及数据隐私、数据所有权以及知情同意和用户知识产权等相关主题。
在算法设计方面,行动涉及收集和整理数据集,然后使用这些数据集训练和部署数据模型,以预测结果或在现实世界中自动化决策。伦理挑战可能来自数据集偏差、数据质量问题、不公平和误表征等问题,其中一些问题具有系统性。
在两种情况下,伦理挑战突显了我们的行动可能与共享价值观产生冲突的领域。为了检测、缓解、减少或消除这些问题,我们需要就我们的行动提出道德上的“是/否”问题,然后根据需要采取纠正措施。让我们来看看一些伦理挑战以及它们引发的道德问题:
数据收集通常涉及可以识别数据主体的个人数据。数据所有权涉及与数据的创建、处理和分发相关的控制权和用户权利。
我们需要问的问题是:
知情同意定义了用户同意某项行动(如数据收集)的行动,前提是他们充分了解相关信息,包括目的、潜在风险和替代方案。
需要探索的问题有:
知识产权是指人类努力产生的无形创造,可能对个人或企业具有经济价值。
需要探索的问题有:
数据隐私或信息隐私是指保护用户隐私和保护用户身份不受个人可识别信息侵害。
需要探索的问题有:
被遗忘权允许用户要求删除与其相关的个人数据。
《被遗忘的权利》或《被删除的权利》为用户提供了额外的个人数据保护。具体来说,它赋予用户请求从互联网搜索和其他位置删除个人数据的权利——在特定情况下——允许他们在网络上重新开始,不受过去行为的影响。
要探讨的问题包括:
数据集或《收集偏差》是指选择非代表性数据子集进行算法开发,从而在不同群体的结果中产生潜在的不公平性。偏差类型包括选择偏差、志愿偏差和工具偏差。
要探讨的问题包括:
《数据质量》关注用于开发算法的精心策划的数据集的有效性,检查特征和记录是否满足我们的人工智能目的所需的准确性和一致性要求。
要探讨的问题包括:
《算法公平性》检查算法设计是否系统性地歧视特定子群体,导致《潜在伤害》(例如,在资源分配方面,某些群体被剥夺资源;在服务质量方面,某些子群体的AI准确性低于其他群体)。
要探讨的问题包括:
探索资源,如《AI公平性检查表》,了解更多内容。
《数据误导》涉及询问我们是否以一种欺骗的方式传达来自诚实地报告的数据的见解,以支持一个期望的叙事。
要探讨的问题包括:
《自由选择的幻觉》发生在系统“选择架构”使用决策算法引导人们朝着一个偏好的结果,同时似乎给他们提供选项和控制权。这些《黑暗模式》可能导致用户的社会和经济伤害。因为用户的决策影响行为档案,这些行动可能放大或延长这些伤害的影响。
要探讨的问题包括:
为了将这些伦理挑战置于现实世界的背景中,看看当这些伦理违规被忽视时,可能对个人和社会造成的潜在危害和后果是有帮助的。
以下是几个例子:
| 伦理挑战 | 案例研究 |
|---|---|
| 知情同意 | 1972年 -《塔斯基吉梅毒研究》:参与研究的非裔美国男性被告知可以获得免费医疗服务,但研究人员没有告知他们诊断结果或治疗的可用性。许多受试者死亡,他们的伴侣或孩子也受到影响;该研究持续了40年。 |
| 数据隐私 | 2007年 - 《Netflix数据奖》提供了来自5万名客户的1000万匿名电影评分,以帮助改进推荐算法。然而,研究人员能够通过外部数据集(如IMDb评论)将匿名数据与可识别数据相关联,从而“去匿名化”一些Netflix用户。 |
| 收集偏差 | 2013年 - 波士顿市开发了Street Bump应用程序,让市民报告坑洞,从而帮助城市更好地了解和修复道路问题。然而,由于低收入群体较少拥有汽车和手机,他们的道路问题在该应用中不可见。开发者与学者合作解决公平性和数字鸿沟问题。 |
| 算法公平性 | 2018年 - MIT的《性别阴影研究》评估了性别分类AI产品的准确性,揭示了女性和有色人种在准确性上的差距。2019年的《苹果信用卡》似乎给女性的信用额度比男性少。两者都揭示了算法偏差导致社会经济伤害的问题。 |
| 数据误导 | 2020年 - 佐治亚州公共卫生部发布的COVID-19图表似乎通过非时间顺序排列误导公众关于确诊病例的趋势。这展示了通过可视化技巧进行误导的例子。 |
| 自由选择的幻觉 | 2020年 - 学习应用ABCmouse支付了1000万美元以解决FTC投诉,家长被诱骗订阅无法取消的服务。这展示了选择架构中的黑暗模式,用户被引导做出有害选择。 |
| 数据隐私和用户权利 | 2021年 - Facebook数据泄露事件曝光了5.3亿用户的个人信息,导致与FTC达成50亿美元的和解。然而,Facebook拒绝通知用户,违反了数据透明度和访问的权利。 |
想探索更多案例研究?查看以下资源:
思考你所看到的案例研究——你是否经历过或受到类似的伦理挑战的影响?你能想到至少一个说明我们在本节讨论的伦理挑战的案例吗?
我们已经讨论了伦理概念、挑战以及现实世界中的案例研究。但是,我们如何在项目中开始应用伦理原则和实践?我们又如何将这些实践操作化以实现更好的治理?让我们探索一些现实世界的解决方案:
职业准则为组织提供了一种激励成员支持其伦理原则和使命声明的方法。这些准则是专业行为的道德指南,帮助员工或成员做出与组织原则相一致的决策。它们的效果取决于成员自愿遵守的程度;然而,许多组织通过提供额外奖励和惩罚来激励成员遵守。
示例包括:
你是否属于专业工程或数据科学组织?探索它们的网站,看看它们是否定义了职业伦理守则。这说明了它们的伦理原则是什么?它们如何“激励”成员遵守守则?
虽然职业准则定义了从业者的必要伦理行为,但它们在大规模项目中的执行存在已知的局限性。相反,许多数据科学专家倡导使用检查表,这些检查表可以将原则与实践更确定和可操作地联系起来。
检查表将问题转换为“是/否”任务,可以操作化,并作为标准产品发布工作流程的一部分进行跟踪。
示例包括:
伦理是定义共享价值观并自愿做正确的事。合规是指在有法律规定的前提下遵循法律。治理广泛涵盖了组织运营的所有方式,以执行伦理原则并遵守已建立的法律。
如今,治理在组织内有两种形式。首先,它涉及定义伦理AI原则,并建立实践以在整个组织的AI相关项目中实现采用。其次,它涉及遵守所有政府强制的数据保护法规,适用于其运营的地区。
数据保护和隐私法规示例:
1974, 美国隐私法 - 管理联邦政府对个人信息的收集、使用和披露。1996, 美国健康保险可移植性和责任法案(HIPAA) - 保护个人健康数据。1998, 美国儿童在线隐私保护法(COPPA) - 保护13岁以下儿童的数据隐私。2018, 通用数据保护条例(GDPR) - 提供用户权利、数据保护和隐私。2018, 加州消费者隐私法(CCPA) - 给消费者更多关于其(个人)数据的权利。2021, 中国的个人信息保护法 刚刚通过,成为全球最严格的数据隐私法规之一。欧盟定义的《通用数据保护条例》(GDPR)仍然是当今最具影响力的隐私法规之一。你知道它还定义了8项用户权利 来保护公民的数字隐私和个人数据吗?了解这些内容及其重要性。
请注意,在合规(做到“法律条文”要求的程度)与解决系统性问题(如僵化、信息不对称和分配不公)之间仍然存在无形的差距,这些问题可能会加速AI武器化的速度。
后者需要采取协作方法来定义伦理文化,这些方法能够在整个行业内的组织之间建立情感联系和一致的共享价值观。这需要组织内更正式化的数据伦理文化——允许任何人拉停安灯绳(在流程早期提出伦理关切),并将伦理评估(例如,在招聘过程中)作为AI项目团队组建的核心标准。
课程和书籍有助于理解核心的伦理概念和挑战,而案例研究和工具则有助于在现实世界环境中应用伦理实践。以下是一些入门资源。
声明:
本文件灏天文库团队进行了翻译。尽管我们力求准确,但请注意,翻译可能包含错误或不准确之处。原文档以其原始语言为准。我们不对因使用此翻译而产生的任何误解或误译负责。