文章ChatGPT时代的著作权法：新思考与挑战

AI与法律2yrs ago (2024)update lida

276 0 0

文章主题：生成式人工智能, 著作权法, 独创性表达, 人工智能生成内容

在当今社会，生成式人工智能技术如ChatGPT的兴起和应用，对著作权领域的基础创作逻辑产生了深远影响。这些技术以其令人难以置信的效率和能力，完成了过去只有自然人才能进行的创作任务，尤其是在思想独创性表达方面。然而，建立在“思想表达二分法”基础之上的传统著作权制度，却只保护自然人思想的外在表达，而不涉及思想本身。然而，随着生成式人工智能技术的逐渐普及，这种著作权制度的适用价值可能会被削弱，其可能带来的颠覆性变革也不容忽视。

一、生成式人工智能兴起与著作权理论的新思考

1. AIGC著作权问题的争议

我国理论界对于人工智能生成内容著作权问题的关注，大致源起于2018年北京市海淀区法院审理的“菲林诉百度案”和深圳市南山区法院审理的“腾讯诉网贷之家”。笔者以“人工智能+版权/著作权”为关键词在中国知网进行检索，限定文献来源为“CSSCI”，共检索到289篇文章，其中有260篇文章均为2018年后出版，亦验证了这一基本判断。虽然上述两案判决对于“人工智能生成内容”是否构成作品做出了不同的认定。但不同的判决结果归因于两个案件涉及的人工智能模型（或者说机器模型）在运行机制方面的本质差异；而在法律层面，两个判决的落脚点存在高度共识，即只有证明存在自然人的创作贡献，人工智能生成内容才会被认定为著作权法上的作品。

在那段历史时期，学术界的焦点聚集在了一个核心问题，即“人工智能生成的内容是否受到著作权法的保护”。在这个问题上，两种观点在学术界产生了激烈的争论。一种观点坚定地认为，人工智能生成的内容应当享有著作权保护。主要基于以下几点理由：首先，当时的人工智能技术尚未达到高度自主化的地步，仅仅是一种辅助和服务的工具。其次，人工智能生成的内容主要体现了模型设计者或训练者的创作意愿和行为，只要这些生成的内容具备“独创性”，就可以视为作品。再者，我们可以参考并借鉴已经存在且运行良好的法人作品制度，将人工智能的所有者视为著作权人。然而，另一种观点则坚决反对这种看法。其主要理由在于：首先，人工智能生成的内容是通过应用算法、规则和模板等手段得到的，这使得其无法体现出创作者的个性化特征。其次，人工智能的创作过程并不符合著作权法中的“创作”定义，因此生成的内容不能被视为作品。最后，在判断一个客体是否具有独创性时，不仅要看其在客观上是否满足表达的形式要求，还需要通过整体的主观体验来判断客体是否具有“智力上的创新”。

2. 技术迭变赋予AIGC著作权探讨新的时代意义

在2022年的11月30日，美国的人工智能研究机构Open AI推出了一款名为ChatGPT的产品。仅仅两个月的时间里，这款产品的月度活跃用户数量就已经达到了1亿，创下了全球互联网历史上用户增长最快的纪录。紧接着在2023年的3月16日，我国的企业家们也开始行动了，百度发布了“文心一言”，随后，阿里、科大讯飞、商汤等公司也纷纷推出了各自的对标产品——生成式人工智能产品。然而，尽管这些国产产品正在进行内部测试和研发，我国的用户和企业却还无法注册ChatGPT的账号或者接入其应用程序编程接口。尽管如此，生成式人工智能技术对内容创作和著作权制度产生的重大影响，使得相关的理论探讨再次拥有了全新的时代意义。

值得注意的是，新一代生成式人工智能的发展之所以备受关注，就在于其一定程度上已经具备系统科学领域所称的“涌现能力”。所谓“涌现能力”，就是当人工智能模型参数达到一定量级之后，会突然拥有包括常识推理、问答、翻译等一系列类似人类的“智慧能力”，这朝着通用人工智能（artificial general intelligence）迈进了一大步。生成式人工智能涌现能力的出现，也解释了为什么ChatGPT类产品在内容表达上看起来已经和人类无异。就此，有学者指出，ChatGPT本质上是一个大型语言模型，是“智能搜索引擎+智能文本分析器+洗稿器”的结合，不属于法律意义上的“人”，生成的内容也不应受到著作权法的保护。也有学者表示，ChatGPT与此前人工智能的重要区别，在于存在基于人类反馈强化学习的训练，使得生成的内容融入了人类的主观偏好。因此，ChatGPT生成的作品就是人的智力成果。另有学者表示，ChatGPT生成的内容应当分情形讨论，如果人类输入的指令足够具体，则生成的内容就蕴含着人类足够具体的意思表达，应受著作权法保护。

综上来看，理论界目前对于新一代人工智能生成内容著作权问题的探讨，虽然在观点上存在明显差异，但依旧立足于既有著作权制度下“主体规则—仅限于自然人创作”和“客体规则—仅保护独创性的外在表达”的基本框架。然而，在人工智能技术发展的“奇点时刻”（singularity moment）加速来临之际，ChatGPT类产品已经超越了既往的人工智能模型应用，一定程度上可以说具有了“通用人工智能”属性或者说“类人性”。对此，我们需要审视和思考：撼动和变革既有著作权制度整套逻辑的“奇点时刻”是否已经加速到来？

二、生成式人工智能打破了著作权法的底层逻辑

在深入探讨著作权法的核心理念时，我们可以发现两个显著的变化。首先，以ChatGPT等产品为代表的新型生成式人工智能正在逐步改变内容创作的 fundamental规则。尽管人类在独创性思想的领域仍具有优势，但AI正在逐步在思想的具体表现层面超越人类。其次，新一代生成式人工智能颠覆了“思想表达二分”这一概念创立时的合理性基础。例如，ChatGPT等产品可以通过学习作品风格和灵感等方式，产生大量与原作品不同的新表达形式。虽然这并不直接构成著作权侵犯，但却对在先创作者产生了实际的市场替代效果。

1. 创作层面：人类对“独创性表达的垄断”被打破

第一，各类生成式人工智能利用海量数据进行模型训练、生成最终内容的方法大体相同。首先，自监督学习。机器自己学习大数据，包括购买的数据库，公开的网站文章、电子书，电子版的报纸、杂志，以及开源社区的计算机代码等。其次，监督学习。人类把自己写的问题和答案交给机器学习，让机器学会人类说话的方式和风格。最后，人类反馈强化学习。人类会先训练一个奖励模型，它包括了对于多个答案优劣的评价，然后再用这个模型去训练和评价机器生成的内容，让机器的回答越来越接近人类的叙述方式。

以 ChatGPT 为例，其内容生成机制可以被比喻为“文字接龙”，这实际上是对统计学中“自回归”原理的具体呈现。具体来说，该机制首先通过模型预测下一个字，接着将此预测的字纳入模型，再次预测下一个字，如此循环迭代，最终输出。与此不同，传统的自然人创作是基于自身独特的语言理解能力，即在特定的语言和特定文字之间的对应关系建立后，通过内含的语义来传递思想。随着语义的不断组合，形成了各种词汇和短语，从而丰富了表达的层次。经过一段时间的积累，文字之间形成了特定的结构，使得人们能够理解交流对象想要表达的含义，进而构成了人类的语法和语句。语句的累积形成了语段和语篇，直至满足著作权法的条件，成为认可的作品。因此，ChatGPT 的“自回归式”单字内容生成机制与人类基于语言理解能力的创作逻辑在本质上存在差异。

第二，自然人创作正日益被人工智能“创作”所赶超和替代。目前，虽然ChatGPT似乎仍无法像人一样理解其输出内容的真正意义。但为何ChatGPT可以判断出下一个最可能的字是什么，并且在将这些字组成完整的内容后，看起来高度契合人类的表达逻辑和语义语法？回答这个问题，便需要我们反思，是否应当从更宏大的视角去审视著作权法上的创作行为。毕竟生成式人工智能凭借“涌现能力”重塑了创作逻辑，开辟了一条不同于自然人创作的新路径。

除ChatGPT等生成型AI产品外，其他类似技术也展现出强大的创造力。这些经过大量数据训练的大规模模型，其创作速度和艺术水平远超人类，且能持续不断地产生高质量内容。当前，用户几乎可以免费利用这些生成型AI产品来获得所需的 content。因此，生成型AI技术的出现，极大地改变了人们对著作权法中“创作”的理解。原本由专业人群主导的、高度门槛的“独创性表达行为”，如今在生成型AI的帮助下，普通大众只需具备有价值的想法和观点，就能够完全委托给机器来进行具体表达。

2. 制度逻辑层面：“思想表达二分法”的适用价值被消解

第一，“思想表达二分法”存在的正当性基础被撼动。“思想表达二分法”作为著作权制度的底层逻辑，强调著作权法只保护自然人思想的“外在表达”，而不保护“思想本身”。“思想表达二分法”的创设前提，是过去人们学习既有作品的风格、灵感进而创作出新作品的能力十分有限。即便人们可以学习他人独创性的思想，但将其付诸具体内容创作时仍存在很高的准入门槛，需要具备足够的专业技能。加之，个体学习和创作的效率与精力往往有限。因此，在过去即使不保护在先作品中的思想，也并不会导致不同主体之间利益的显著失衡。于是有观点直言，即使一个人每天看一本书，穷其一生也顶多只能阅读三万本书，并且极大可能一生也写不出一本书。而生成式人工智能的发展，则使得原本专属于人类的独创性表达，可以通过近乎零成本、无门槛的机器生产方式完成。换言之，ChatGPT类产品可以在短时间内快速“学完”人类社会海量思想、知识和风格的基础上，进行无限的、全新的内容生成。

第二，著作权领域“智力劳动合理回报机制”的失效。从内容生成机制来看，人工智能模型并不会侵犯在先作品中受著作权法保护的“外在表达”。以ChatGPT为例，其实际是在“自回归原理”下，不断学习海量在先作品中不同文字之间排列组合的概率和规律，然后内化为自身模型参数的过程。ChatGPT对于训练数据库中作品内容的学习利用，可以理解为细化到分散、海量的作品中每一个字的引用，而不会复现特定作品，甚至不会复现特定作品中的段落和语句。所以，ChatGPT实际上不存在对在先训练作品的实质性引用，从而就不会侵犯在先作品中受著作权法保护的“外在表达”。但是与在先作品风格和思想相似的人工智能生成内容，会对著作权人既有授权市场产生现实的挤出效应。加之，生成式人工智能内容生产的效率和规模远非自然人可比，由此便会进一步放大上述的市场替代效应。目前发生的典型案例，是全球各地的艺术家起诉Midjourney等人工智能绘画平台利用在先美术作品投喂机器、进行模型训练，并大规模生成和特定艺术家风格相一致的画作在市场上抛售。

著作权制度的目标在于“对人类智力劳动合理回报机制的设计”。然而生成式人工智能的模型研发、商业应用主体，通过“利用既有作品风格思想，进而输出全新表达”的内容生成机制，借由提供商业服务和技术接口等方式盈利，但没有把这些利益分配给在先作品的权利人。著作权制度本应体现的合理回报机制在此出现了缺位，从而在事实上导致了内容上下游之间的利益失衡。

三、生成式人工智能挑战了著作权法的基础规则

从著作权制度的基础规则来看，鉴于ChatGPT类产品生成内容的效率远高于人类，未来其或将逐渐成为全社会知识内容的生产主体，而著作权法仅对“源于自然人创作的内容”加以保护，由此其适用价值便受到挑战。同时，生成式人工智能对于他人作品训练利用的行为难以归入现有著作权专有权利的范畴，著作权领域传统的“授权许可模式”因此也面临落地难的现实困境。

1. 权利主体层面：“只保护自然人创作”的制度基础受到挑战

第一，AI或将成为全社会信息内容的生产主体。以ChatGPT类产品为代表的新一代生成式人工智能的兴起，打破了自著作权制度诞生以来长久的共识——内容生产特别是作品创作，是自然人专属智慧的体现。当下，生成式人工智能的迅猛发展，正在使“创作”与“人类的表达”快速解耦。内容创作从“大脑构思+手工表达”转变为“人脑思考+机器表达”。由此，人们设想的内容创作领域大规模工业化的场景也将加速来临。有研究发现，ChatGPT在2023年1月的内容输出能力为3.1亿单词每分钟。而据谷歌公司此前统计，自1440年古登堡印刷机发明以来，全社会出版了约1.298亿本书。每本书估算有5万个单词，总共约有6.5万亿单词。由此，按照ChatGPT目前的内容生产能力，几乎每14天便可以输出相当于人类全部印刷作品的内容量。虽然笔者没有找到这一研究之外类似的数据，但即便延长到14个月甚至更长的时间维度，这依旧是一个令人兴奋的发展趋势。由此，我们可以预想，未来生成式人工智能输出的内容将会成为全社会信息内容的主体。

第二，难以规制AIGC将导致著作权法适用价值的消弭。长久以来，各国著作权法均坚持“只保护自然人创作”的基本理念，即内容生成过程中只有存在自然人的创作性贡献，才会被认定为作品并受著作权法保护。但从目前ChatGPT类产品的内容生成机制来看，存在难以证明具备自然人创作贡献的事实困境。著作权法保护的是自然人的独创性表达，也即对创作元素最终和具体的选择安排。但是在人们向生成式人工智能输入“prompts”进而直接输出内容的过程中，对于创作元素最终和具体的选择安排，恰恰是由人工智能“模型黑箱”而非使用人工智能的用户来实际完成的。2023年3月16日，美国版权局发布了专门的指南，表示“ChatGPT类产品生成的内容，因为难以证明存在自然人的创作性贡献，所以不构成作品，不受到版权法保护”。长期以来，完全由自然界、动物产生的内容素材都不会被认定为著作权法上的作品，如猕猴自拍、风力侵蚀形成的石像等。在我国，现行《著作权法》对作品和作者的规定是，“作品是指文学、艺术和科学领域内具有独创性并能以一定形式表现的智力成果”“创作作品的自然人是作者”。自然人以外的动物以及作为机器模型的生成式人工智能均不能成为创作主体，生成内容也无法构成作品。

当下，虽然说在“人机协作模式”之下，创作者可以通过对人工智能自动生成的内容“改编”（增加包含人类独创性贡献的内容）或汇编（内容的选择或者编排上体现独创性）等方式间接获得保护。但是，伴随ChatGPT类产品内容生成能力的不断提升，未来社会绝大多数有价值且被广泛利用的信息内容可能都是由人工智能生成。囿于著作权法“只保护自然人创作”的底层逻辑，上述内容却难以享有著作权。与此同时，受著作权法保护的人类作品却存在内容体量小、使用占比低、市场价值弱等现实问题。

2. 客体权利层面：“先授权、再利用”的传统范式被颠覆

第一，“授权许可”难以实行。著作权作为一种法定权利，不同于物权等自然权利，是在法律上人为创设的一项权利，是为了激励内容创作和知识传播，从社会公有领域中为著作权人划出的一块保护区。为了平衡权利人和社会公众间的利益，著作权法仅赋予创作者授权和规制落入法定权利范畴的作品利用行为，比如复制、发行、信息网络传播等。但生成式人工智能模型对于他人作品思想、风格层面的“学习训练行为”实际难以落入既有著作权法专有权利的规制范畴。既无权利，何来授权？表面来看，生成式人工智能模型的“学习训练行为”类似于自然人阅读文字作品、欣赏美术作品后的思考、吸收及再创作行为，和既有的著作权专有权利无法对应。若著作权法对于生成式人工智能时代最为普遍和重要的作品利用行为——机器学习或者说模型训练难以规制，那么“授权许可模式”在实操层面也便失去了现实意义。深入思考可以发现，生成式人工智能模型的“学习训练行为”作用对象是在先作品中的“思想”而非著作权法所保护的“表达”。在“思想表达二分法”规则之下，模型“学习训练行为”在纳入著作权权利框架上存在障碍。

即便打破“思想表达二分法”的制度屏障，将模型“学习训练行为”纳入著作权专有权利范畴，亦仍将面临权利价值缺位的现实问题，即著作权人难以对ChatGPT类产品未经授权的“学习训练行为”加以有效规制。其原因在于，著作权人存在发现模型侵权、举证模型侵权以及侵权内容比对等方面的困境，对此后文将具体阐释。由此来看，或许需要从根本上反思著作权法既有赋权和授权规则，以适应生成式人工智能时代的到来。

第二，“合理使用”亦无空间。对于人工智能模型训练阶段未经授权的作品“学习训练行为”而言，从现有著作权法“合理使用制度”角度考察，责任豁免的探讨似乎也缺乏实际意义。合理使用的制度设计在于，对本身构成著作权侵权的行为，基于特定公共利益的考量，在符合一定要求后予以侵权责任豁免。但生成式人工智能模型的作品“学习训练行为”是对于作品思想风格的学习利用，难以落入著作权专有权规制的范畴。既然目前上述作品利用行为本身不受著作权法规制、不构成著作权侵权，合理使用的责任豁免便无从谈起。论及机器学习领域合理使用问题，则不得不提及“谷歌图书馆案”。早在2004年，谷歌公司便将数字化后的图书存放于服务器中，供用户以“检索有限文字片段的方式”发现所需图书。谷歌上述提供作品片段的行为虽落入“复制权”范畴，但美国法院最终认定上述利用行为不构成对原有图书市场的替代。对于ChatGPT类产品而言，前文已述，其内容生成机制实际是“学习在先作品中不同文字之间排列组合的概率，并细化到分散、海量作品中单字的引用”。因此，生成式人工智能输出的内容基本不涉及作品（甚至作品片段）的复制利用，相较“谷歌图书馆”而言，“侵权传播”概率更低，“市场替代”影响更小，“转换使用”程度更高。

四、生成式人工智能否定了著作权法的救济机制

从著作权制度的救济机制来看，生成式人工智能模型训练阶段的作品利用行为，本质上是一种机器内部的非外显性利用，著作权人在实践中往往会遭遇举证不能和侵权判定难的问题。而平台责任领域立基于“内容传播环节”的“避风港制度”，面对“内容生成环节”的ChatGPT类产品的模型研发和商业应用平台，其适用价值也难以为继。

1. 侵权标准层面：“接触+实质性相似”的判定规则失效

第一，著作权人难以证明存在对自身作品的“实际接触”。在先创作者对于ChatGPT等生成式人工智能模型训练中未经授权的作品利用行为，存在现实层面的维权困境。虽然著作权人难以发现侵权行为这一现实问题已存在较长时间，但著作权人所遭遇的维权挑战从未如此之大。例如，伴随内容分发领域算法推荐技术的应用，著作权人疲于应对海量的UGC（User Generated Content，也就是用户生成内容）侵权，陷入维权保护“打地鼠”的泥淖。但现实中，著作权人至少可以从外在表现发现作品是否被他人所侵权利用。生成式人工智能模型训练中的作品利用，事实上是一种在模型内部进行的非外显的作品利用。这就导致了即使自身作品被人工智能模型未经授权用于训练，著作权人实际上也难以发现。

既有的著作权法遵循“接触+实质性相似”的侵权判定规则。在权利人主张生成式人工智能模型训练阶段存在侵权利用自身作品的场景下，首先便需要举证平台存在对自身作品的“现实接触”。但前述非外显的作品训练行为，导致著作权人难以提供相应的证据来主张模型训练平台“实际接触”到自身作品。如此一来，在先创作者的维权行为便难以为继。

第二，著作权人难以进行“实质性相似”标准的侵权比对。理论上，在先创作者可以比对ChatGPT类产品生成和传播的内容和自身作品是否存在实质性相似，进而倒推人工智能模型训练阶段存在未经授权的作品利用行为。然而实践中，从侵权比对环节下的“实质性相似”标准来看，权利人也会遭遇现实困境。因为生成式人工智能对于内容创作的颠覆性影响在于，其通过对在先作品思想、风格的吸收学习，以一种难以预判的方式，输出和既有作品相区分的、全新的内容表达。由此，著作权人在“实质性相似”侵权的比对过程中，会陷入ChatGPT类产品输出内容与自身作品“似曾相识”但又“似是而非”的困境。

2. 平台责任层面：“避风港制度”的适用错位

第一，“避风港制度”立足“侵权传播环节”平台责任的规制。“避风港制度”诞生于1998年美国颁布的《数字千年版权法》，并逐渐发展成为全球平台责任的基础规则。“避风港制度”适用于目前互联网绝大多数的著作权侵权情形：侵权内容是由用户生成和上传的，由用户承担直接侵权责任。对于网络平台而言，只有在知道用户利用其网络服务传播侵权内容，但未采取必要制止措施时，才需要就自身帮助侵权内容传播的行为承担间接侵权责任。但是，伴随“小程序”“云存储”“算法推荐”等内容传播技术的普及应用，“避风港制度”也在不断遭受挑战，而“内容传播环节”平台责任的规则定位始终未被突破。

第二，AIGC领域则需要关注“内容生成环节”的平台责任。此前的“避风港制度”下，网络服务提供者著作权侵权责任的归责基础，在于是否帮助了“用户侵权内容的传播”；生成式人工智能的模型研发平台和商业应用平台，作为新兴网络服务提供者，涉及的则是“用户侵权内容的生成”。在生成式人工智能技术出现前，平台侵权责任判定侧重于：用户上传侵权内容（直接侵权责任规制的范畴）→传统的网络服务扩大侵权内容传播（既有“避风港制度”规制的范畴）两个环节。在生成式人工智能技术出现后，平台侵权责任则需关注：用户利用生成式人工智能产生侵权内容→（新“避风港制度”规制的范畴）用户上传侵权内容→传统的网络服务扩大侵权内容传播三个环节。而生成式人工智能技术的发展，已经将平台著作权侵权规则推向了新的发展阶段，即从单纯关注内容传播领域的平台责任向关注内容生成和内容传播两个并行领域的平台责任转变。或许，我们已再次站到了与《数字千年版权法》诞生时相似的制度十字路口，需要从技术发展、著作权保护和内容传播等视角综合思考，如何创设专属于生成式人工智能时代的新“避风港制度”。

五、结论与展望

面对ChatGPT类产品的快速发展，我们不禁感叹生成式人工智能的“创作时代”或许真的是“将至已至、未来已来”。其在改写内容领域创作逻辑的同时，也对著作权法的底层制度带来一系列颠覆性影响。如果说既有的著作权法从创作行为、规制主体、保护客体、权利范畴、侵权判定以及平台治理等层面都难以应对这一冲击和挑战，那么本文所论证的核心观点“生成式人工智能的兴起将引发著作权法的彻底变革”，应当说并非危言耸听，而是揭开了这一难掩趋势的帷幕。

人工智能领域技术的迭代速度惊人，从GPT-3.5到GPT-4只用了不到4个月，但各类性能都实现了质的提升。OpenAI官方数据显示，在美国律师执照模考中，GPT-4得分排在前10%，而GPT-3.5则为倒数10%；在生物奥赛排名中，GPT-4可达前1%，而GPT-3.5则在后31%。由此，出现全面超越既有ChatGPT类产品逻辑推理和内容生成能力的新一代AI技术应用，很可能并非仅是一种长期假想而是可预见的短期必然，并在既有著作权制度无力回应时加速其彻底变革。鉴于我国在生成式人工智能技术研发和应用领域尚处于起步阶段，且与域外相比仍存在一定差距，本文在“破题”之后并不急于提出新的“立题”。因为，新一代生成式人工智能方兴未艾，制度层面科学、可行的著作权应对路径，仍有待理论和实践层面进一步的观察和论证，相信这将会是一个价值平衡、利益博弈以及最终立法回应的长期过程。

本文来自微信公众号：探索与争鸣杂志（ID：tansuoyuzhengming），作者：司晓（中南财经政法大学产业教授、知识产权研究中心兼职研究员）