简述生成式人工智能（ChatGPT）的法律风险

71 0 0

关注“税律笔谈”公众号，可获取更多实务观点！

作者：王泉/诉讼律师、桂亦威/诉讼律师|注会

【税律笔谈】按

近期（2023年7月13日），《生成式人工智能服务管理暂行办法》颁布，了了二十几条反映了国家对人工智能发展的鼓励态度和对新生技术可能导致的未知风险的担忧，并提出了“坚持发展和安全并重”、“促进创新和依法治理相结合”的原则，鼓励生成式人工智能健康安全发展的理念，贯穿于整部《办法》。可以预见的是，人工智能的发展是未来技术及经济转型升级的核心，而国家基于安全、风险的考量，定会出台系列制度及指引确保人工智能的健康发展。针对近半年最受人讨论和推崇的人工智能（如ChatGPT），本文则简述其背后的相关法律风险，供抛砖引玉、引发思考。

【律师总结】

一、国家对生成式人工智能的态度及未来发展

从《办法》的规定内容来看，国家“鼓励生成式人工智能的创新发展”、“鼓励生成式人工智能技术在各行业、各领域的创新应用”、“支持行业组织、企业、教育和科研机构、公共文化机构、有关专业机构等在生成式人工智能技术创新、数据资源建设、转化应用、风险防范等方面开展协作”、“鼓励生成式人工智能算法、框架、芯片及配套软件平台等基础技术的自主创新，平等互利开展国际交流与合作，参与生成式人工智能相关国际规则制定”、“鼓励采用安全可信的芯片、软件、工具、算力和数据资源”等，可见国家对人工智能的发展是包容鼓励的，并贯穿于各行各业，未来也将动用各方面资源支持人工智能的创新发展。

同时，为防范风险、确保生成式人工智能的健康发展，《办法》明确了生成式人工智能服务应当坚持的社会主义法治理念和社会公德及伦理道德。具体包括：“坚持社会主义核心价值观”、“采取有效措施防止产生歧视”、“尊重知识产权、商业道德，保守商业秘密”、“尊重他人合法权益”、“提升透明度，提高生成内容的准确性和可靠性”。

就技术和人工智能成长发展的角度，考虑生成式人工智能离不开数据的采集、训练等数据处理活动，国家将推动生成式人工智能基础设施和公共训练数据资源平台建设，推动公共数据分类分级、有序开放，逐步扩展高质量的公共训练数据资源。这将在源头上确保生成式人工智能训练数据来源的合法性、真实性、客观性及风险的可控性。微观层面，《办法》对生成式人工智能服务提供者开展预训练、优化训练等训练数据处理活动，提出了具体要求，即：“适用具有合法来源的数据和基础模型”、“不得侵害他人知识产权”、“涉及个人信息，应当取得个人同意或符合规定”、“采取有效措施提到训练数据质量，增强真实性、准确性、客观性、多样性”、“遵守《网络完全法》、《数据安全法》、《个人信息保护法》等相关规定”。

以上体现了国家对生成式人工智能技术在各行各业创新发展应用的鼓励态度，也对其健康发展提出了制度性要求。个人认为，从规定内容精神来看，国家对境外生成式人工智能的服务提供（如ChatGPT）是较为谨慎的，这不仅基于支持国内人工智能技术发展的考虑，更基于对国家安全、社会公共利益、数据安全等方面的基本考量。

二、在国内使用ChatGPT涉嫌违法

需要指出的是，我国并未接入OpenAI开发设计的ChatGPT软件，境内人员使用ChatGPT的，通常需要借助使用VPN等工具“翻墙”接入。但根据《计算机信息网络国际互联网管理暂行规定》规定，“任何单位和个人不得自行建立或擅自使用其他信道进行国际联网。”违反规定的，公安机关可给予警告、通报批评、责令停止联网，可以并处15000元以下的罚款。因此，境内人员通过注册并在境内“翻墙”使用ChatGPT的，属于违法行为。

当然，我们在市面上能够看到的许多以“ChatGPT”命名的人工智能聊天软件，可以使用境内网络进行链接使用，其中大部分属于国内“山寨”版AI软件，并非OpenAI开发的ChatGPT软件；也有少部分属于境内人员注册了ChatGPT账号，并利用该账号，基于ChatGPT开放的API接口在国内开发了聊天机器人demo，然后以此收取国内使用者的服务费用。

以上无论是打着“ChatGPT”名义的山寨版人工智能软件的信息服务，还是基于ChatGPT开放的API接口所开发的人工智能软件的信息服务，都属于《中华人民共和国电信条例》中所提到的“经营电信业务”中“电信增值业务”中的“信息服务业务”，依法需要取得电信业务经营许可证。根据《电信业务分类目录（2015年版）》，“信息服务业务是指通过信息采集、开发、处理和信息平台的建设，通过公用通信网或互联网向用户提供信息服务的业务。信息服务的类型按照信息组织、传递等技术服务方式，主要包括信息发布平台和递送服务、信息搜索查询服务、信息社区平台服务、信息即时交互服务、信息保护和处理服务等”。“信息发布平台和递送服务是指建立信息平台，为其他单位或个人用户发布文本、图片、音视频、应用软件等信息提供平台的服务。平台提供者可根据单位或个人用户需要向用户指定的终端、电子邮箱等递送、分发文本、图片、音视频、应用软件等信息。”“信息搜索查询服务是指通过公用通信网或互联网，采取信息收集与检索、数据组织与存储、分类索引、整理排序等方式，为用户提供网页信息、文本、图片、音视频等信息检索查询服务。”综上，境内个人或企业利用人工智能聊天软件，通过输入训练数据，根据用户对话要求，输出经过采集和处理的数据信息服务，属于典型的“信息服务业务”范畴，应当取得电信经营许可证。个人或企业违反规定，擅自经营上述业务的，电信管理机构有权责令改正、没收违法所得，处违法所得3倍以上5倍以下的罚款；情节严重的，责令停业整顿。若个人或企业违反经营许可的法律规定，扰乱市场秩序，情节严重，则会触犯《刑法》规定，涉嫌非法经营罪。

除此之外，现实生活中，还有不少网友通过短视频、网络直播、网页内容发布等方式传授境内人员如何“翻墙”注册并使用ChatGPT，借此收取一定的授课费用。此举通过传授他人使用如何“翻墙”服务器浏览国外网站，涉嫌“提供侵入、非法控制计算机信息系统程序、工具罪”，情节严重的，处3年以下有期徒刑或者拘役，并处或者单处罚金；情节特别严重的，处3年以上7年以下有期徒刑，并处罚金。

所以，尽管我国并没有禁止公民使用ChatGPT，但是在国内使用ChatGPT不可避免使用到VPN。因此，在境内使ChatGPT，违法风险较大，需要谨慎对待。

三、生成式人工智能在输入数据端可能存在的违规风险

所谓生成式人工智能技术，是具有文本、图片、音频、视频等内容生成能力的模型及相关技术。这是《办法》关于生成式人工智能技术，针对其生成输出端内容的定义表述。但是，就生成内容的程序而言，生成式人工智能离不开大量数据的学习，从中提取规律和模式，才能生成满足用户需要提问的输出内容。因此，就输入端而言，我们需要提供大量的数据“喂养”技术，而数据的来源就牵涉各个层面的法律问题及可能存在违规风险。主要包括：

1、个人信息的违规采集及泄露风险

生成式人工智能通过获取大量数据进行训练学习，不可避免地会收集到公开渠道的各种含有个人信息的数据、用户的账户信息、对话内容、社交媒体信息、日志信息，并且用户在使用类ChatGPT工具进行对话时，亦可能透露个人的医疗健康、财产账户、行踪轨迹、宗教信仰等个人信息。按照《个人信息保护法》的规定，个人信息的处理需要取得本人同意或具备其他合法性基础。但是，类ChatGPT工具在获取个人信息的同时并取得潜在信息主体的同意具有实践上的难度。就当前数据合规的要求而言，类ChatGPT工具仍然需要遵守相关法律规定，采取技术手段，防范个人信息的违规采集及泄露风险。当然，《办法》也提到国家将“推动生成式人工智能基础设施和公共训练数据资源平台建设，推动公共数据分类分级、有序开放。”这将为生成式人工智能技术的发展提供制度保障。

2、企业商业数据采集的违规及不正当竞争风险

根据《反不正当竞争法》的规定，经营者不得以不正当的方式获取或使用其他经营者的商业数据或商业信息。如果相关商业主体采取了技术措施限制他人的访问限制或者将商业数据进行了保密处理，类ChatGPT工具仍然通过技术爬虫方式绕开数据主体设置的访问限制或真人审核，径直获取该类商业数据，或者通过商业主体员工对话的形式间接获取商业数据，涉嫌违规采集数据，并存在商业不正当竞争的风险。

3、版权信息内容的违规采集及侵犯他人著作权的风险

考虑公开网络存在大量的原创版权文章，类ChatGPT工具不可避免将其作为攫取对象予以训练，并将训练学习的成果反馈给用户。在当前《著作权法》的封闭保护制度下，类ChatGPT工具未经权利人同意，复制、修改、改编、翻译、汇编等处理他人作品的行为，存在侵犯他人著作权的风险。当然，部分国家对于公开“文本及数据挖掘”处理的版权问题设置了例外规则，纳入合理使用的范畴。对于此方面的立法处理，我们可以期待国内立法的完善。

4、违规采集国家政务数据及侵犯国家数据主权和涉嫌违法犯罪的风险

根据《数据安全法》的规定，政务数据的存储、加工、处理，受到严格监管。为保障政务数据安全，国家机关须建立健全数据安全管理制度、落实数据安全保护责任；为推动政务数据开放利用，国家制定政务数据开放目录，构建统一规范、互联互通、安全可控的政务数据开放平台。可见，国家对政务数据的公开态度是保持谨慎的，在没有具体政务数据利用制度的规定条件下，类ChatGPT工具不应贸然攫取政务数据进行训练分析。否则，极有可能违反《数据安全法》的规定，侵犯国家数据主权、破坏社会公共秩序。类ChatGPT工具通过技术爬虫方式绕开部分官网设置的真人审核方式，获取政务数据的（如中国裁判文书网对判例的搜索设置了真人注册、验证码核实的有限查询措施），涉嫌非法获取计算机信息系统数据罪。

5、境外违规采集数据及侵犯国家安全、公共利益等风险

为维护国家数据主权，保障数据安全，维护国家主权、安全和发展利益，国家对数据出境出台了《数据出境安全评估办法》，相关数据处理者应当遵守《网络安全法》、《数据安全法》、《个人信息保护法》及前述评估办法等相关法律的规定。截止目前，国家未引入ChatGPT工具，除了为国内人工智能的发展提供良好的竞争环境外，还基于国家安全、公共利益的考量。境内人员通过VPN访问并使用ChatGPT工具，必然导致境内数据的违规出境，引发数据安全风险。

四、生成式人工智能生成过程存在的不可控风险和道德风险

就人工智能的本质而言，其主要研究、模拟、延伸和扩展人类的智能。随着人工智能技术的发展，其愈发具备人脑的思维能力，不可排除最终会形成意识，而人工智能在不同技术水平的状态下，都必然会存在不同程度的“算法黑箱”问题。

所谓“算法黑箱”，系指一个算法对于其输入和输出之间的关系具有不透明性，即无法清楚地了解该算法如何处理输入数据，以及输出数据如何处理得出。当然，“算法黑箱”有人为因素，如技术公司人为将带有歧视的数据导入类ChatGPT工具或者技术公司出于维护竞争优势所采取的排他性商业政策，导致用户无法获悉人工智能算法的目标和意图。“算法黑箱”也有非人为因素，这种是基于技术本身的复杂性程度决定，人工智能既然是研究人的智能，我们可以把它理解为某种进化程度的“人”，“人”的意识“主观性”决定了我们无法窥探任何“人”的获取知识及得出结论的思维过程。

对于具有人为因素的“算法黑箱”问题，我们可以通过立法加以监督、规范，确保算法的透明度，具有可控性；但对于非人为因素的技术层面的“算法黑箱”问题，我们无法进行有效解释，并无法通过规范性立法或有效监督活动予以控制，此乃人工智能发展将必然会面临的不可控风险。

另外，暂且不论人工智能的类“人”性，尽管技术存在客观中立性，但是人工智能技术的开发、运用，离不开人的主观因素。以ChatGPT为例，其开发应用本身就基于西方社会的价值观和意识形态，鉴于此建立的算法模型，在数据采集及输出内容上或多或少带有天然的价值偏向，最终可能会导致意识形态的渗透。若某类算法模型的开发本身带有“人”的主观价值偏向，或者在算法模型的使用过程中，过度喂养带有歧视性的数据，最终可能导致输出数据内容的道德风险。

五、生成式人工智能输出端内容对传统法律的挑战及可能存在的法律风险

所谓人工智能，简单来说，就是一种模拟人类智能的技术，随着人工智能技术的提高，人工智能训练学习数据量的不断扩大，人工智能愈发具备人类的思维能力、自我创造能力，愈发接近“人”的存在。生成式人工智能模型在经过不断训练学习，掌握人类知识，其输出的内容，也会逐渐具备“独创性”特征。同时，考虑“算法黑箱”及“算法歧视”的存在，以及输入的数据内容本身不具备客观真实性，生成式人工智能所制造的输出内容，可能侵害他人合法权益、社会公共利益甚至国家利益。在此情形下，随着人工智能技术的发展，人工智能行为到底是人的行为还是机器行为，区分边界会越来越模糊，人工智能可能挑战传统法律体系，生成式人工智能输出的内容也可能蕴涵法律风险，甚至法律风险存在难以归责的隐患。具体包括：

（1）人工智能机器人是否具备民事法律主体资格？随着人工智能技术愈发接近“人”的存在，法律是否有必要扩充民事理论，赋予其民事法律主体资格？

（2）生成式人工智能基于自身总结、分析、创造出的输出内容，是否构成法律意义上的作品，是否需要给予其知识产权的保护，相关作品的权利应归属谁？

（3）生成式人工智能输出内容侵害他人权利时，责任归属主体如何确定？民事责任的归责原则如何确定？生成式人工智能服务提供平台，是否可以适用“红旗原则”免除其自身责任？

（4）人工智能因非人为“算法黑箱”问题的存在，导致输出数据内容的不实传播，损害社会公共利益及国家利益，扰乱社会经济秩序时，是否需要追究相关责任主体以及追究何种主体的何种责任？