ChatGPT：原理、技术架构与应用前景的法律风险评估

AI与法律2yrs ago (2024)update lida

173 0 0

文章主题：关键词：ChatGPT，人工智能，聊天机器人，自然语言处理，生成式AI，OpenAI， legal risks

在2022年的11月30日，OpenAI公司的首席执行官山姆·阿尔特曼（Sam Altman）在社交平台推特上正式推出了他们的聊天机器人模型ChatGPT。这一消息一经发布，便在短时间内引起了社交媒体的广泛关注，仅仅五天时间，注册用户数量就已经突破了百万大关。根据Similarweb提供的数据，今年的一月份，平均每天有大约1300万的独立访客使用了ChatGPT，这个数字是去年十二月份的两倍还多。至今，ChatGPT的用户数量已经超过了1亿，创下了互联网历史上最快破亿应用的纪录。这个速度超过了之前的TikTok在九个月内破亿的速度。

ChatGPT这一概念在资本市场中备受瞩目。根据CB Insights的数据，目前约有250家初创公司致力于该领域，其中51%的融资阶段处于A轮或天使轮。在2022年，ChatGPT和生成式AI（AIGC）领域的总金额超过26亿美元，共孕育出了6家独角兽企业。其中，估值最高的公司是OpenAI，达到了290亿美元。

在我国资本市场热情追捧 ChatGPT 概念板块的同时，众多科技企业纷纷跟进，开始在该领域进行布局。其中，百度公司计划在 2023 年 3 月推出一款类似于 ChatGPT 的人工智能聊天机器人服务，该服务被命名为“文心一言”，英文名为 ERNIE Bot。然而，在 ChatGPT 受到资本市场欢迎的同时，它也面临着法律安全风险的争议。因此，本文作者以专业的法律工作者的角度，全面深入地解读了 ChatGPT 是什么以及其应用前景，并对其可能带来的法律安全风险进行了评估。

ChatGPT是什么？

经过对百度百科的检索，我们得知ChatGPT是在2022年11月30日由人工智能研究机构OpenAI推出的全新聊天机器人模型，它是一款以人工智能技术为基础，专门用于处理自然语言的工具。

自2018年开始，人工智能领域的领军企业OpenAI便推出了一系列的生成式预训练语言模型，其中最为知名的产品便是GPT（Generative Pre-trained Transformer）。这种先进的模型能够广泛应用于各种场景，包括但不限于文章创作、编程任务、机器翻译以及问答等。值得注意的是，GPT系列模型的参数量在每一次迭代中都呈现出爆炸式的增长，充分展示了其强大的能力。具体来说，2019年2月发布的GPT-2模型参数量达到了150亿，而到了2020年5月，GPT-3的参数量更是达到了惊人的1750亿。此外，基于GPT-3.5架构开发的对话AI模型ChatGPT，则是 InstructGPT的另一个重要兄弟模型。

（该图引自《ChatGPT发展历程、原理、技术架构详解和产业未来》一文）

ChatGPT的核心技术之一是Transformer,它的全称是Chat Generative Pre-trained Transformer,可以看出它所采用的技术特点。Transformer技术是近年来人工智能领域的重大突破之一,由Google于2017年提出,是一种采用注意力机制的深度学习模型。这种技术的最大优点在于,可以根据输入数据的不同部分赋予不同的权重,从而更好地适应各种复杂场景。相较于过去流行的CNN和RNN等模型,Transformer在精度和性能方面都有显著提升,使得人工智能可以在更大的模型、更多的数据和更强的计算资源的的基础上进一步提升自身的能力。

此外，该技术还具有很强的跨模态能力，不仅在NLP（自然语言理解）领域表现优异，在语音、图像方面也显示出了优异的性能。事实上，ChatGPT作为OpenAI发布的最新语言模型，比其前身GPT-3有显著提升。与许多大型语言模型类似，ChatGPT能以不同样式、不同目的生成文本，并且在准确度、叙述细节和上下文连贯性上具有更优的表现。它代表了OpenAI最新一代的大型语言模型，并且在设计上非常注重交互性。

从ChatGPT的主要特点来看，OpenAI使用RLHF（Reinforcement Learning from Human Feedbac，人类反馈强化学习）技术对ChatGPT进行了训练，且加入了更多人工监督进行微调。从其本质来看，ChatGPT是Transformer和GPT等自然语言处理技术的集成，本质上是一个基于神经网络的语言模型。此外，ChatGPT还具有以下特征：

1. 可以主动承认自身错误。若用户指出其错误，模型会听取意见并优化答案；

2. ChatGPT可以质疑不正确的问题；

3. ChatGPT可以承认自身的无知，承认对专业技术的不了解；

4. 支持连续多轮对话。ChatGPT在对话过程中会记忆先前使用者的对话讯息，即上下文理解，以回答某些假设性的问题。ChatGPT可实现连续对话，极大的提升了对话交互模式下的用户体验。

但尽管ChatGPT表现出出色的上下文对话能力甚至编程能力，我们也要看到，ChatGPT技术仍然有一些局限性，还在不断的进步：

1. ChatGPT在其未经大量语料训练的领域缺乏“人类常识”和引申能力，甚至会一本正经的“胡说八道”。ChatGPT在很多领域可以“创造答案”，但当用户寻求正确答案时，ChatGPT也有可能给出有误导的回答；

2. ChatGPT无法处理复杂冗长或者特别专业的语言结构。对于来自金融、自然科学或医学等非常专业领域的问题，如果没有进行足够的语料“喂食”，ChatGPT可能无法生成适当的回答；

3. ChatGPT需要非常大量的算力（芯片）来支持其训练和部署。抛开需要大量语料数据训练模型不说，在目前，ChatGPT在应用时仍然需要大算力的服务器支持，而这些服务器的成本是普通用户无法承受的，即便数十亿个参数的模型也需要惊人数量的计算资源才能运行和训练；

4. ChatGPT还没法在线的把新知识纳入其中，而出现一些新知识就去重新预训练GPT模型也是不现实的，无论是训练时间或训练成本，都是普通训练者难以接受的。

ChatGPT的应用领域及发展前景

如前文指出，当前ChatGPT并不完美，但ChatGPT模型的出现对于文字/语音模态的AIGC（生成式AI）应用具有重要意义，会对AI产业上下游产生重大影响。如从上游增加需求来看，包括算力芯片、数据标注、自然语言处理（NLP)等。从下游相关受益应用来看，ChatGPT作为一款聊天机器人程序，它能够通过学习和理解人类的语言来进行对话，还能根据聊天的上下文进行互动，真正像人类一样来聊天交流，甚至能完成撰写邮件、视频脚本、文案、翻译、代码等任务，也可以编写和调试计算机程序，还可以进行文学、媒体相关领域的创作。具体来说，未来ChatGPT还可以有多样化的应用前景：

一是搜索引擎。结合ChatGPT等AI聊天技术的搜索引擎很可能会呈现出传统搜索引擎为主+基于神经网络的语言模型为辅的途径。目前传统的搜索巨头如谷歌和百度均在基于神经网络的语言模型技术上有着深厚的积累，譬如谷歌就有与ChatGPT相媲美的Sparrow和Lamda，有着这些语言模型的加持，搜索引擎将会更加“人性化”。

二是数字人。需要类似ChatGPT这样的模型提供对话能力，才能让数字人具备有趣的灵魂，更好地陪伴和服务人。同时，该能力也可以嵌入到机器人身体内，让未来的人形机器人更聪明，更像人。

三是大量的开发者可以利用ChatGPT这样的底层平台，在大模型基础上根据不同行业和场景进行模型调优，从而创造出各类满足用户需求的丰富应用，从而形成对话式AI的生态。例如国外火爆的Jasper，通过在GPT3模型上的微调，可以帮助用户撰写营销文案，甚至有人在上面完成了一部 12 万字的小说，IBM、Airbnb、Autodesk等大企业都是其企业用户。

四是银行、律所、各类中介机构、商场、医院、政府政务服务平台中的人机交互机制，如上述场所中的客诉系统、导诊导航、政务咨询系统。ChatGPT等AI聊天技术运用在客诉系统和医院、商场的导诊导航以及政府机关的政务咨询系统中将大幅度降低相关单位的人力资源成本，节约沟通时间。

五是智能汽车、智能家居（如智能音箱、智能灯光）等的交互机制。

六是在教育业的应用。如不少学生开始使用ChatGPT代替自己撰写论文。在线课程供应商http://Study.com面向全球1000名18岁以上学生的一项调查显示，每10个学生中就有超过9个知道ChatGPT，超过89%的学生使用ChatGPT完成家庭作业，22%的学生用ChatGPT生成论文大纲。

此外，与其他模态AI工具的组合式创新，ChatGPT同文生图、文字生成视频、甚至未来直接生成3D模型的工具集成，可以带来UGC内容的极大丰富，成为内容工业化的核心引擎。未来，ChatGPT与更多的AI、云计算等信息技术的集成创新，将创造改变生产力曲线的工具，成为经济发展新动力。

ChatGPT广泛的应用场景及其发展可能性，也再一次点燃了资本市场对人工智能领域的投资信心与热情。据CB Insights统计，ChatGPT概念领域目前约有250家初创公司，其中51％融资进度在A轮或天使轮。2022年，ChatGPT和生成式 AI（AIGC）领域吸金超过26亿美元，共诞生出6家独角兽，估值最高的就是290亿美元的OpenAI。去年10月19日，主打文字生成的AIGC公司Jasper.ai宣布完成1.25亿美元的A轮融资，估值达到15亿美元。10月18日StabilityAI宣布获得1.01亿美元，公司宣布会继续研发用于生成图片、语言、音频、视频和3D的AI生成模型，投后估值达10亿美元。毋庸置疑，投资机构纷纷看好ChatGPT和AIGC赛道的商业前景。红杉资本给出预测，未来预计能够产生数万亿美元的经济价值。

ChatGPT带来的法律风险

ChatGPT为人们带来惊喜的同时，其潜在的法律风险亦值得关注。

正如北京师范大学互联网发展研究院院长助理吴沈括认为，ChatGPT在实际应用层面将面临三种风险：第一种是在更巨量数据汇聚的过程中，可能会产生法律和安全风险；第二种是在模型和算法设计的过程中，可能产生伦理和违法风险；第三种是在实际应用过程中，可能被用于违法犯罪行为，进而带来社会风险。具体来看：

（一）知识产权侵权风险

在使用ChatGPT进行创作的过程中，可能产生侵犯知识产权风险。ChatGPT是在大量不同的数据集上训练出来的大型语言模型，所以其产生于其他数据集的回复有可能侵犯已有的作品。使用受版权保护的材料来训练人工智能模型可能导致该模型在向用户提供回复时过度借鉴他人的作品从而引起侵权纠纷，故ChatGPT的输出内容可能有侵犯其他作品知识产权的风险。

另一个问题是，ChatGPT创作的内容是否能认定为作品？如若认定为作品，其著作权归属如何？作品是指文学、艺术和科学领域内，具有独创性并能以某种有形形式复制的治理创造成果。而对于AI生成的作品是否具有独创性的问题，应当根据现有的独创性标准进行判定。如果AI生成的答复具有独创性，那么著作权人可以是AI吗？显然，包括我国在内的大部分国家的知识产权法律下，AI无法成为作品的作者。且就在2023年1月23日，权威学术期刊《科学》的主编索普发表社论，宣布正在更新编辑规则，强调不能在作品中使用由ChatGPT（或任何其他人工智能工具）生存的文本、数字、图像或图形。他特别强调，人工智能程序不能成为作者，如有违反，将构成科学不端行为。

（二）数据安全风险

在使用ChatGPT的过程中，还面临着较高的数据泄露风险。如用户在使用ChatGPT时会输入信息，由于ChatGPT强大的功能，一些员工使用ChatGPT辅助其工作，这尤其引起了公司对于商业秘密泄露的担忧。2023年1月份，一名微软员工在内部论坛上询问是否允许在工作中使用ChatGPT，微软首席技术官（CTO）办公室一位高级工程师回答，只要不与ChatGPT共享机密信息，工作时使用ChatGPT是被允许的。亚马逊公司律师同样警告员工不要与ChatGPT分享“任何亚马逊的机密信息”，因为输入的信息可能会被用作ChatGPT进一步迭代的训练数据。另一方面，ChatGPT用户必须同意公司可以使用用户和ChatGPT产生的所有输入和输出，同时承诺ChatGPT会从其使用的记录中删除所有个人身份信息。然而ChatGPT未说明其如何删除信息，而且由于被收集的数据将用于ChatGPT不断的学习中，很难保证完全擦除个人信息痕迹。

（三）算法风险

ChatGPT仍然是黑盒模型。目前还未能对ChatGPT的内在算法逻辑进行分解，因此不能保证在使用ChatGPT的过程中，所输出的内容不会产生攻击甚至伤害用户的表述。其中，最为棘手的是ChatGPT回复的虚假信息问题，ChatGPT的工作原理导致其回复可能完全是“一本正经的胡说八道”，这种看似真实实则离谱的虚假信息具有极大的误导性。

（四）被作为违反犯罪工具使用的风险

最后，ChatGPT还极有可能被当作违法犯罪的工具使用。如利用ChatGPT生成大量可用于对在线帐户进行自动攻击的潜在用户名和密码组合，进行撞库攻击。利用自然语言编写的能力，编写恶意软件，从而逃避防病毒软件的检测。利用ChatGPT的编写功能，生成钓鱼电子邮件；利用对话功能，冒充真实的人或者组织骗取他人信息。利用ChatGPT创建暗网市场脚本，为非法交易提供自动交易平台等。

结语

总体而言，ChatGTP作为人工智能领域的技术创新，其对于上下游产业的发展起到有力的推进作用，具有光明的发展、应用前景。与此同时，ChatGPT本身仍面临着知识产权风险、数据安全风险、算法风险及被作为工具用于实施违法犯罪行为的风险。对此，要想该技术获得持续发展，还亟待完善相应监管机制，确保相关产业的合规运作。

参考来源：

1.《解析ChatGPT背后的工作原理》，载架构师公众号。

2.《一文读懂：有关ChatGPT的十个问题》，载腾讯研究院公众号。

3.《ChatGPT爆火的冷思考：盈利难题与治理调整》，载火讯财经。

4.《ChatGPT发展历程、原理、技术架构详解和产业未来》，载架构师技术联盟。

本文作者：阮紫晴上海申浩律师事务所孙俊律师团队实习律师，苏州大学刑法学硕士研究生。主要研究领域为行政刑法、刑事合规、数据犯罪等领域。

孙俊上海申浩律师事务所合伙人，上海交通大学法律硕士研究生，香港大学财务与投资管理硕士。2016年开始关注区块链方面的政策与法律，并购买了大量的比特矿机和莱特矿机进行挖矿。2017年在区块链行业从事投资收购工作，收购金额达到百亿。2018年-至今专注因为电信诈骗和网络赌博引起的洗钱风险研究以及处理过很多大型的经济金融领域的刑事犯罪，参与过很多解冻卡业务。

更多法律问题，欢迎加律师笔者微信一起探讨。

AI时代，拥有个人微信机器人AI助手！AI时代不落人后！

免费ChatGPT问答，办公、写作、生活好得力助手！

搜索微信号aigc666aigc999或上边扫码，即可拥有个人AI助手！