MetaIgnoresLegalWarnings,UsesPiratedBookstoTrainAIModels

AI与法律2yrs ago (2024)update lida

133 0 0

文章主题：Metadata, Copyright, Artificial Intelligence, Meta Platforms

消息称 Meta 无视自家律师警告，使用盗版书籍训练 AI 模型

据路透社报道，最近的一份文件揭示了Meta Platforms在面临盗版书籍训练AI模型可能存在的法律风险时，依然坚持其做法。据IT之家报道，这起版权侵权诉讼案件进一步暴露了Meta在保护知识产权方面的不足。

MetaIgnoresLegalWarnings,UsesPiratedBookstoTrainAIModels

IT之家了解到，今年夏天，知名喜剧演员Sarah Silverman以及普利策奖获得者Michael Chabon等著名作家共同发起了对该案件。他们主张Meta未获得授权便使用了他们的作品来训练人工智能语言模型Llama。近日，这起案件与其他相似的诉讼一同被合并审理。

上个月，加州一位法官驳回了 Silverman 的部分诉讼，但表示将允许作者修改诉讼内容。新诉状中包含了 Meta 一名研究员在 Discord 聊天服务器上讨论获取数据集的聊天记录，这可能是 Meta 知晓使用书籍可能存在版权风险的重要证据。聊天记录中的对话显示，他们曾讨论过使用盗版书籍训练 AI 模型的法律风险。其中，一位 Meta 研究员 Tim Dettmers 提到，Meta 的法律部门律师曾表示，如果使用这些书籍训练 AI 模型，可能会存在法律问题。律师称，这些数据无法使用，如果使用了的话，模型也无法发布。

今年，众多科技公司正遭遇与内容创作者类似的指控，即它们在开发生成式AI模型过程中涉嫌侵犯作品版权。

若这些诉讼取得成功，或许将对生成式AI的进步产生潜在阻碍。其主要原因在于，这可能会提高建立AI模型的成本，从而迫使AI公司向艺术家、作家以及其他内容创作者支付使用其原创作品的授权费。

欧洲联盟针对人工智能的全新临时规定可能导致企业公开其用于训练模型的数据集，从而使这些公司在法律上面临更大的风险。

Meta 于今年 2 月发布了其第一版 Llama 大型语言模型，并公布了用于训练的数据集列表，其中包括“ThePile”数据集的“Books3”部分。根据诉讼文件，该数据集的创建者曾表示，其中包含 196,640 本书籍。该公司没有披露其最新版模型 Llama 2 的训练数据，该模型于今年夏天面向商业用户开放。返回搜狐，查看更多

责任编辑：