AI 安全与对齐:构建安全可靠的 AI 系统


文档摘要

AI 安全与 对齐:构建安全可靠的 AI 系统 AI 安全挑战 主要安全威胁 对抗样本攻击:精心设计的输入欺骗模型 提示词注入:通过特殊提示词绕过安全限制 数据隐私:训练数据和推理数据的隐私保护 模型窃取:模型权重和架构的泄露风险 有害内容:生成虚假、有害、偏见内容 对抗攻击 对抗样本 对抗训练 提示词注入防护 输入验证 系统提示词 数据隐私 差分隐私 联邦学习 内容过滤 有害内容检测 偏见检测 \ python


发布者: 作者: 转发
评论区 (0)
U