人工智能隐私保护白皮书_市场营销策划_重点报告202301202_doc.docx
《人工智能隐私保护白皮书_市场营销策划_重点报告202301202_doc.docx》由会员分享,可在线阅读,更多相关《人工智能隐私保护白皮书_市场营销策划_重点报告202301202_doc.docx(46页珍藏版)》请在课桌文档上搜索。
1、中国联通China Unieom中国联通人工智能隐私保护白皮书中国联通研究院中国联通网络安全研究院下一代互联网宽带业务应用国家工程研究中心2023年11月版权声明本白皮书版权属于中国联合网络通信有限公司研究院,并受法律保护。转载、摘编或利用其他方式使用本报告文字或者观点的,应注明“来源:中国联通研究院”。违反上述声明者,本院将追究其相关法律责任。目录前言1-人工智能全生命周期隐私风险分析31.1 人工智能通用隐私风险41.1.1 数据采集存储流通阶段隐私风险41.1.2 模型训练与推理阶段隐私风险61.2 生成式人工智能隐私风险9二人工智能隐私保护法规政策和标准化现状102.1人工智能隐私保护
2、国内外法律法规和政策102.1.1国内情况102.1.2国外情况132.2人工智能隐私保护国内外相关标准化情况191 .2.1国内相关标准研究情况192 .2.2国外相关标准研究情况21三人工智能隐私保护技术和平台223.1 人工智能隐私保护技术233.1.1 人工智能隐私保护管控技术233.1.2 人工智能隐私保护数据加密技术233.1.3 人工智能隐私保护攻击防御技术253.1.4 人工智能隐私保护新兴技术263.2 人工智能隐私保护平台30四人工智能隐私保护建议314.1 建立健全的人工智能隐私保护合规监管机制314.2 加强可操作的人工智能隐私保护标准建设324.3 3构建全周期的人工
3、智能隐私保护体系334.4 发展多维度的人工智能隐私保护技术354.5 培养复合型的人工智能隐私保护人才364.6 6构建负责任的人工智能隐私保护生态37参考文献37刖百人工智能(ArtificialIntelIigence,简称AI)作为战略性新兴产业,作为新的增长引擎,日益成为科技创新、产业升级和生产力提升的重要驱动力量。生成式人工智能工具、人脸识别、智能工厂、智慧城市等人工智能技术现已广泛落地,这些令人难以置信的技术正在快速改变人们的生活,对经济社会发展和人类文明进步产生深远影响。与此同时,人工智能技术也带来难以预知的各种风险和复杂挑战,潜在的滥用对以前被认为是不可侵犯的个人敏感信息构成
4、了前所未有的威胁,技术自身缺陷导致智能决策在多个领域存在不确定性和敏感信息泄露,系统被非法控制导致个人隐私被未授权的第三方获取和推理。因此,人工智能技术引发的隐私与安全问题已经成为时下的关注话题,也是当前人工智能领域所面临的最大挑战之一。为了更好的推动新一代人工智能安全发展,让人工智能用的放心,各国政府和企业越来越重视人工智能隐私保护。人工智能隐私保护指的是在数据采集存储和数据使用共享,模型训练以及模型推理应用的全生命周期过程中有效的保护用户数据隐私不泄漏,不被未授权第三方获取或推理。因此,在人工智能处理大量个人数据和敏感信息的过程中,如何加强数据隐私管控;在人工智能训练过程中,如何保证数据质
5、量,避免原始数据隐私泄露;在人工智能推理应用过程中,如何防御攻击引起的数据隐私推理,如何保护模型保密性与完整性日渐成为国际人工智能的重要议题。本白皮书从人工智能隐私保护的内涵出发,从人工智能全生命周期系统梳理人工智能通用隐私风险和生成式人工智能隐私风险。在此基础上,总结了国内外人工智能隐私保护法规政策标准化现状。然后分析了人工智能隐私保护技术和平台,包括管控技术、数据加密技术、攻击防御技术、隐私保护机器学习平台和人工智能安全检测平台等。最后以技术发展和隐私保护并重为原则,研究提出了多维度、负责任的人工智能隐私保护实施建议,让下一代人工智能用的放心。本白皮书由中国联通研究院主笔,中国联通集团网络
6、与信息安全部、中国软件评测中心(工业和信息化部软件与集成电路促进中心)、数据安全关键技术与产业应用评价工业和信息化部重点实验室、中国计算机行业协会数据安全专业委员会、三六零数字安全科技集团有限公司、中兴通讯股份有限公司联合编写。编写组成员(排名不分先后):总策划:苗守野、李浩宇、叶晓煜编委会:徐雷、陶冶、李慧芳、孙艺、陈泱、曹咪、傅瑜、唐刚、张德馨、白利芳、李尤、林青、杨晓琪、黄英男、李泽村、唐会芳、王雨薇、王继刚、陈靖-人工智能全生命周期隐私风险分析在智能化变革的今天,技术的发展和变化都会对人们的生活带来空前的改变,互联网和大数据等相关技术的更迭加速了人工智能应用的步伐,使得人们的生产生活方
7、式悄然的有了新的活力。技术的发展给社会带来机会的同时也同样不能忽略它的弊端和随之带来的一系列负面影响,尤其在今天这样无隐私的透明化的时代,人们在让渡出自己的部分权利来交换智能应用所带来的便利服务时,隐私泄露是人们必须要直面的问题。最近几年,有关隐私受到侵犯的案件一再发生。例如,Facebook未经用户允许将用户个人信息泄露给剑桥分析公司用于非正当目的,同时其利用网民的浏览行为来精准的投放广告,剑桥大学心理测量学中心从用户对哪些帖子和新闻进行阅读和点赞,来分析出每个人的性别、性取向、个性外向还是内向等,美食外卖企业“饿了么”、“大众点评”、“美团”会利用算法推送一些推荐食物和餐馆帮用户做出饮食决
8、定,自动驾驶技术让人们可以轻松的出行,高德地图、百度地图等智能导航系统减少了人们寻找路线的时间和精力,ChatGPT和其他生成式人工智能工具可以提高用户交互体验、提高员工的创作和办公效率,但这些信息都以数据的形式存储了下来,并被企业或其他主体收集和利用,一些智能手机应用甚至过度的收集并违规使用个人信息,使得个人隐私信息面临被泄露或被窃取的风险。可以看到人工智能的普及与滥用使其面临越来越多的隐私与安全威胁,社会各界也逐渐加大了对隐私风险的分析和隐私保护的关注度。从隐私保护角度,数据隐私性、模型保密性、模型完整可用性是用户和服务提供商最为关心的问题。因此,本章将先从数据、模型这两个不同的方面来揭示
9、人工智能面临的通用隐私威胁。同时,由于生成式人工智能(GeneratiVeArtificiaIInteIIigence,简称生成式Al)技术的快速发展和应用给人们带来了巨大的想象空间,但也增加了新的Al隐私风险,本章还将对生成式人工智能隐私风险进行揭示。1.1 人工智能通用隐私风险1.1.1 数据采集存储流通阶段隐私风险数据不正当收集风险。人工智能算法尤其是在深度学习的开发测试过程中,需要大量训练数据作为机器学习资料、进行系统性能测试。在网上公开数据源和商务采购时,由于目前数据共享、交易和流通的市场化机制不健全,存在非法数据、买卖数据、暗网数据等不正当收集行为和一些未经授权的收集行为,这些数据
10、缺乏用户知情同意,实际并没有获得数据的采集权限,很容易泄露用户隐私。数据过度收集风险。在无人驾驶、智能家居、智慧城市等典型应用场景中,数据主要通过在公开环境中部署各类传感器或终端,并以环境信息为对象进行无差别、不定向的现场实时采集。现场采集由于难以提前预知采集的数据对象和数据类型,因此,在公开环境尤其是公共空间进行现场采集时,将不可避免地因采集范围的扩大化而带来过度采集问题。比如,在智能网联汽车的无人驾驶场景中,自动驾驶汽车的传感器需要采集街景数据来支持智能驾驶系统的决策从而控制汽车行驶,但是这种无差别的街景数据采集必然会采集到行人的个人数据,其中包括行人的人脸数据等个人敏感信息,造成行人的隐
11、私泄露风险,甚至还可能会采集到路边的重要基础设施、地理位置信息、军事营区等重要数据,给国家安全带来风险。数据存储隐私泄露风险。一方面,在对数据进行保存时,如果没有对数据采取技术手段进行安全防护,容易被非法需求者通过网络攻击等黑客行为进行隐私数据窃取。另一方面,在数据存储过程中,由于对数据没有明确的隐私界定与标注,如果使用者无意中将涉及隐私的数据用于公开的人工智能训练分析中,个人隐私将在不经意间被泄露。再另一方面,在人工智能数据处理使用的过程中,涉及众多数据处理、保存步骤,对于种类多、数据量大的数据集,处理、保存操作难以规范与监管,潜藏被非法使用者利用、拷贝等安全隐患。数据流通隐私泄露风险。由于
12、大量人工智能企业会委托第三方公司或采用众包的方式实现海量数据的采集、标注、分析和算法优化,数据将会在供应链的各个主体之间形成复杂、实时的交互流通,可能会因为各主体数据安全能力的参差不齐,产生数据泄露或滥用的风险。此外,在全球数字经济发展不均衡的大背景下,大型科技巨头将人工智能的数据资源供给、数据分析能力、算法研发优化、产品设计应用等环节分散在不同的国家,数据跨境流动的场景也会对国家安全和个人信息保护造成不可控的隐私风险。1.1.2 模型训练与推理阶段隐私风险(1)模型训练阶段数据污染风险数据污染有失数据真实性。人工智能模型依赖海量数据,相比数据集大小,研发工程师更关注数据质量。知名学者吴恩达提
13、出u80%的数据+20%的模型二更好的机器学习”,而数据污染和错误将降低模型精度,数据偏差和噪声将降低模型的泛化性和可靠性。数据是连接现实空间和虚拟空间的桥梁,如果数据质量出现问题,如数据内容失真、数据标注错误、数据多样性有限,则无法反映现实世界的真实情况,在此基础上建立的人工智能模型便会出现偏差,导致预测结果偏差或错误,甚至导致种族歧视或者性别歧视偏见,出现“垃圾进、垃圾出”的现象。如今的生成式Al模型也因静态数据的时效性,导致生成内容存在过时或者错误现象。数据投毒攻击风险。数据投毒是指通过在训练数据集中故意添加污染数据(如错误样本或恶意样本),导致训练出来的模型在决策时发生偏差,从而影响模
14、型的完整性或可用性。人工智能模型在训练过程中容易受到数据投毒攻击,攻击者可以通过实施标签翻转或添加后门等恶意行为来破坏训练数据的正确性。从而破坏模型决策的正确性。近年来,对人工智能模型的数据投毒问题已使得多个世界知名公司遭受重大负面影响,并造成了十分严重的后果。例如:美国亚马逊公司因其Alexa智能音箱学习了网络不良信息,发生了引导用户自杀的恶意行为。因此,训练数据的正确性问题已成为阻碍人工智能发展的重大问题。(2)模型推理应用阶段隐私风险隐私被推理风险。人工智能模型推理产生的信息可能会间接暴露用户隐私。一方面,在对数据进行深度挖掘与分析时,所得到的结果数据可能将用户的个人隐私一并挖掘出来,并
15、进一步进行数据应用,从而使数据中隐藏的个人隐私信息进行暴露。另一方面,在对去标识化的个人信息和行为模式进行融合和关联分析时,可能推理出与个人隐私相关的信息,比如政治倾向、财务状况等。成员推理攻击风险。成员推断攻击是一种数据隐私攻击方法,该攻击通过判断输入数据是否是目标模型的训练数据来达到攻击效果。具体来说,攻击者不需要获取模型结构、模型参数、训练方法等,只需要向模型输入数据,从模型输出的置信度即可判断该输入是否为训练集中的数据。尤其对于过拟合模型,训练集数据与非训练集数据的置信度表现会有明显差异,如果目标攻击模型使用了个人敏感信息进行模型训练,成员推理攻击就会造成模型训练集中这部分敏感数据的泄
16、漏。模型逆向攻击风险。模型逆向攻击是一种通过还原训练数据造成数据隐私泄漏的攻击方法。攻击者可以在没有训练数据的情况下,通过模型输出的置信度不断调整输入数据,最终近似获得训练集中的数据。这一攻击如果使用在人脸识别系统、指纹识别系统等,则会造成用户生物识别信息的泄漏,例如随机构建一张图片,人脸识别模型给出用户名与置信度,结合置信度不断调整图片,最终就有可能将训练集中的人脸恢复出来。模型提取攻击风险。模型提取攻击是一种可以造成模型保密性被破坏与知识产权被侵犯的攻击方法。该攻击通过模型预测结果反推模型具体参数和结构,以达到训练出一个与目标模型相似度极高的模型的过程。企业训练一个机器学习模型往往要花费大
17、量金钱,投入大量人力,通过模型提取攻击,攻击者可以在对模型不掌握任何信息的前提下,仅通过模型的输入与输出来训练一个替代模型,一定程度上侵犯了企业的知识产权,破坏了企业的商业模式。对抗样本攻击风险。对抗样本攻击是一种在模型推理阶段破坏模型完整性的攻击方法,其通过对人工智能模型的输入数据加入微小噪声,以欺骗模型做出错误预测。人工智能模型并不总是稳定和可靠的,攻击者对输入数据加入难以察觉的细小扰动,可以使模型产生意想不到的错误。例如,对于一个猫和狗的图像分类器,攻击者可以在猫的照片上进行微调,使分类器错误地将该图分类为狗。对抗样本攻击的出现给人工智能模型的准确性和鲁棒性带来了挑战,这种攻击可能对身份
18、识别系统这类关键应用产生严重影响,因此也对个人隐私产生极大威胁。提示注入攻击风险。模型面临提示注入攻击,尤其对于语言模型,当模型无法区分系统指令与不受信任的用户输入指令时,用户攻击者就有机会绕过模型限制并违反模型的指导原则来劫持模型输出,注入攻击就有可能发生。这种攻击的思路是,通过注入指令来劫持模型输出,使模型忽略原始指令并执行注入的指令,从而偏离其原始行为,造成信息泄漏或者生成违规内容等问题。提示泄露攻击是提示注入攻击的一种形式,该攻击用于泄露可能包含未经公开的机密或专有信息的提示的攻击。微软公布的NewBing对话机器人就被使用提示注入攻击发现了其聊天的初始提示,该提示通常对用户隐藏。1.
19、2 生成式人工智能隐私风险随着生成式人工智能(GenerativeArtificialIntelIigence,简称生成式AI)技术的发展,Al模型开始具备更通用和更强的基础能力,并从计算智能、感知智能进一步迈向认知智能。但同时,Al模型能力的提升,也带来了新的隐私风险。生成式人工智能隐私风险可分为生成式人工智能内生隐私风险和生成式人工智能滥用导致的衍生风险。生成式人工智能内生隐私风险主要是在使用生成式Al模型的过程导致的数据泄漏风险。一方面,当用户与以ChatGPT为代表的生成式Al模型进行问答交互时,有时会输入包含隐私数据的PromPt指令,而这些指令都会被无差别地记录并存储。由于缺乏对相
20、应数据的访问限制,这些指令中包含的用户隐私存在被泄漏的风险。另一方面,生成式Al模型通过对海量训练数据的学习来生成新的数据,且目前以ChatGPT为代表的生成式Al模型基本属于重组式创新,在进行前向推理时,模型存在将训练数据中包含的隐私数据变换、拼接后生成输出,暴露给无关用户的风险。生成式人工智能滥用导致的衍生风险主要是指在缺乏约束和监管的情况下,生成式Al技术可能被用于深度伪造虚假信息,从而进一步危害用户隐私安全。例如,ChatGPT由于其强大的生成能力,可能被不法分子用于生成钓鱼短信和邮件,一些多模态大模型也可能被用于生成用户语音、图像和视频,进行诈骗攻击。这些行为不仅侵犯他人的肖像权、隐
21、私权、名誉权,还可能被用来实行勒索诈骗等违法犯罪活动。-人工智能隐私保护法规政策和标准化现状2.1 人工智能隐私保护国内外法律法规和政策2.1.1 国内情况随着数据安全法个人信息保护法与网络安全法三法的落地实施,我国数据安全领域法律框架基本搭建完毕,在人工智能安全领域,我国目前尚未对人工智能治理进行综合立法,但已有较多针对数据安全与信息保护的专门立法实践。(D法律层面个人信息保护法确立了以“告知-同意”为核心的个人信息处理规则,详细规范了平台企业的大数据使用和用户画像行为,约束处理个人信息的行为。2021年1月1日,中华人民共和国民法典正式施行,针对人工智能隐私相关问题,民法典规定人工智能技术
22、的使用需要遵守相关法律法规,保护个人信息安全,并对其造成的损害承担相应的法律责任。(2)部门规章层面2017年国务院印发新一代人工智能发展规划,其中明确指出要“确保人工智能安全、可靠、可控发展”“形成人工智能算法与平台安全性测试评估的方法、技术、规范和工具集”。2021年12月,网信办发布互联网信息服务算法推荐管理规定,该管理规定主要对各类算法技术的适用场景和企业使用算法时需恪守的强制性义务及违反后的惩罚措施做了详细规定,明确指出算法推荐服务提供者应当建立数据安全和个人信息保护管理制度和技术措施。此外,最高人民法院于2022年12月发布了关于规范和加强人工智能司法应用的意见,要求人工智能建设要
23、确保国家秘密、网络安全、数据安全和个人信息不受侵害。2023年7月13日,国家网信办联合国家发展改革委、教育部、科技部、工业和信息化部、公安部、广电总局发布了生成式人工智能服务管理暂行办法。该办法的出台既是促进生成式人工智能健康发展的重要要求,也是防范生成式人工智能服务风险的现实需要。办法明确要求,参与生成式人工智能服务安全评估和监督检查的相关机构和人员对在履行职责中知悉的个人隐私和个人信息应当依法予以保密,不得泄露或者非法向他人提供,且要尊重他人合法权益,不得危害他人身心健康,不得侵害他人隐私权和个人信息权益。另外,工信部发布了“十四五”信息化和工业化深度融合发展规划,对智能产品在工业、交通
24、、医疗、教育等重点行业的应用推广进行了系统性的部署。2021年9月,科技部发布的新一代人工智能伦理规范围绕管理、研发、供应、使用和组织五个环节提出了18项具体规范,将抽象的伦理原则以具体规范的形式融入了人工智能全生命周期,推动形成具有广泛共识的人工智能治理框架和标准规范。市场监督管理总局组织起草的互联网平台分类分级指南(征求意见稿)和互联网平台落实主体责任指南(征求意见稿)也于2021年年末开始向社会征求意见,有望通过合理划分平台等级,推动超大型平台承担更多责任与义务,形成更为细致合理的平台责任规范。其他部委如人民银行、人力资源社会保障部、卫健委等也在具体领域积极出台政策文件,共同促进人工智能
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 人工智能 隐私 保护 白皮书 市场营销 策划 重点 报告 202301202 _doc
链接地址:https://www.desk33.com/p-1078646.html