大模型崛起引发隐私安全挑战：ChatGPT等智能工具引发的新一代危机

92 0 0

文章主题：大模型, 双刃剑, ChatGPT, 隐私安全问题

大模型的崛起犹如一把双刃剑，ChatGPT等智能工具产品的出现让人惊叹不已，但与此同时，这也带来了日益严重的隐私安全问题，值得我们高度重视。

近期，著名人工智能助手ChatGPT的创造者OpenAI陷入了两起法律纠纷：首先，16名匿名者指控ChatGPT在训练过程中获取了大量个人数据，要求OpenAI赔偿30亿美元；其次，两位职业作家指控OpenAI未经许可使用他们的作品训练ChatGPT，侵犯了他们的版权，同样要求赔偿30亿美元。目前这两起诉讼仍在进行中。

根据来自克拉克森律师事务所在加州的声明，OpenAI涉嫌从互联网上非法获取了大量内容，涉及约3000亿字，包括书籍、文章、网站和帖子等，且未经当事人同意擅自使用了他们的个人信息。这一事件已导致数百万受害者。

先前有报道指出，韩国三星公司在短短二十天内，因使用ChatGPT而发生了三次机密数据泄露事件，这些数据包括三星半导体设备的测量资料以及产品良率等重要信息。回顾到今年一季度，香港大学、摩根大通等知名企业和意大利等国家都宣布了禁止使用ChatGPT的决定……随着生成式AI技术的广泛应用，人们从担忧失业问题，逐渐演变为对个人隐私和知识产权的担忧，这场由生成式AI引发的危机感正在持续升级。

大模型时代的隐私保护挑战

大模型如ChatGPT的进化，严重依赖于海量数据的训练。这些数据通过感应器进行采集，然后被储存和处理，接着在算力的支持下进行计算，最后构建出决策机制并返回相应的结果。然而，这个过程中数据采集的环节可能会带来个人隐私、商业机密甚至国家政府层面信息的泄漏和扩散，从而对数据安全构成威胁。

一篇研究论文通过实验揭示了大型语言模型具有记忆和泄露部分训练数据的能力，且模型的规模越大，其记忆能力就越强。此发现不仅适用于OpenAI的GPT模型，其他主流语言模型如BERT和RoBERTa也未能幸免。

上海市数据科学重点实验室主任肖仰华认为，大模型时代隐私泄露及侵权问题突出的原因主要在于大模型本身参数规模巨大、数据来源多样。生成式大模型的结果是从海量的语料中随机拼接式的概率化生成，传统上用于认定隐私侵犯的手法在大模型时代会失效，因此在侵犯识别层面就已造成困难。从保护角度而言，大模型是基于深度神经网络 Transformer 的架构，后者本质上是黑盒模型，其习得的知识和能力体系、内部运行的规律直到现在仍鲜为人知，这更使得对隐私保护很多时候无处着手。

在深度学习领域，模型的准确性与可解释性通常不可兼得：诸如神经网络、梯度增强模型等黑盒模型通常具有很高的准确性。但这类模型的内部工作机制却难以理解，也无法估计每个特征对模型预测结果的重要性，更不能理解不同特征之间的相互作用关系。而线性回归和决策树之类的白盒模型的预测能力通常是有限的，且无法对数据集内在的复杂性进行特征交互之类的建模。然而，这类简单的模型通常有更好的可解释性，内部的工作原理也更容易解释。

隐私计算如何切入大模型？

不可否认的是，大模型是一种先进生产力，是个人和企业都应该积极拥抱的，如果因为有隐私的顾虑而直接放弃对大模型的应用，某种程度上无异于因噎废食。如何正视隐私安全问题的存在，并通过相应的手段提高隐私保护的能力、积极应用大模型才是解决问题的正途。

通过多方安全计算、联邦学习、可信执行环境等技术，隐私计算起着平衡数据隐私保护与数据开放共享的作用，是数据要素安全领域的关键技术之一。

大模型时代，隐私计算技术本身的研究、发展和关注的重点也发生着改变，为让其更好地适应大模型，可以重点关注其可用性的研究。

肖仰华认为，隐私计算在大模型时代迎来了全新的机遇。诸如差分隐私、联邦学习等传统隐私计算都是在算法层面开展工作，但是算法层面工作的实施有其前提：例如，保护对象明确才可以实施差分隐私算法，合作协议清晰才可以施展一些联邦学习的策略。而海量化、参数化的大模型，给传统的基于可控、可解释、清晰的技术路线的隐私计算提出了全新的挑战。在不可控、不可编辑、难以解释的大模型环境下，传统方法如何进行发展，这看似是挑战，更多是机遇。

此外，从算法层面上升到架构层面，大模型的隐私保护还要从隔离机制角度分析。对于一些需要进行分层分级保护的个人与企业私密数据，可以建立起大模型自主学习能力和敏感数据相隔离的架构，大模型继续提供其智能，而需要保护的数据和信息依然被保存在密态数据库中，二者的相互协同也给隐私计算带来了新机遇。

中国信通院云大所大数据与区块链部门副主任闫树表示，隐私计算的各类技术路线都有与大模型应用场景适配的方式。比如在云端部署一些 TEE（可信执行环境）做训练，或在模型推理阶段用多方安全计算来提升隐私保护能力，但可能会相应牺牲一些模型的性能。

大模型不应成为脱缰野马

今年 5 月，肖仰华曾发表一篇题为《不要让大模型变成一场华丽的烟花秀》的近万字长文，主张发展大模型的同时要形成有效监管，对于隐私侵犯等破坏行为不能忽视，必须从产业的两侧加强安全底线、伦理标准与合规规范的建设：在数据源头端，加强对训练语料合规性的认证；在生成结果端，对生成内容建立起相关规范。

目前，网信办正推动《生成式人工智能服务管理办法》的出台，对生成式 AI 技术、生成内容、主体责任、数据源和数据处理等方面都作出了规定。

仅就隐私保护而言，我们需要建立起一个系统性的隐私保护防范体系：从用户角度，要建立起对大模型隐私的安全意识，要充分认识到在使用大模型过程当中，你的数据有可能被服务方所收集，从而导致隐私泄露；从提供大模型服务的厂商角度，要提升服务的规范性，给予用户充分的知情权，在用户完全授权的情况下，合理范围下收集用户相关的使用的数据，不应该超出用户授权的范围。

技术方面，在模型与应用之间还存在一层中间层，可以打乱、混淆用户的数据使用与查询记录。此外，以大模型治大模型也是一条重要路径，即靠大模型自身的能力来保护隐私，解决隐私问题。大模型可以识别出语料中有隐私侵犯嫌疑的内容，我们可以利用大模型清洗隐私数据、对其生成结果进行评估，来规避侵犯隐私问题的发生。

查看原文