转自公众号:IPCC 在华国际出版商联盟
http://mp.weixin.qq.com/s?__biz=Mzg3MDc2MTUyNQ==&mid=2247484444&idx=1&sn=90af8fd3809c3f0fb4e708a58e80da4f
近2024年11月18日,国际出版商协会(IPA)组织了一次视频会议,其中美国出版商协会(AAP)CEO Maria Pallante对Stability AI前高管Ed Newton-Rex进行了采访。双方就目前人工智能技术公司未经授权使用版权内容进行模型训练的政策现况及历史发展,透明和授权原则,选择退出机制,以及近期创意界的抗议公开信等热点话题展开了一个小时精彩对谈。
在华国际出版商联盟(IPCC)经IPA、AAP及Ed本人授权,将其采访内容整理精编如下,以飨读者。
01
美国人工智能与版权争议现状
Maria指出,目前在美国已有超过30起针对人工智能公司版权侵权的诉讼,这些公司未经许可使用书籍、报纸、音乐等创意及知识产权作品进行模型训练。在这些案件中,人工智能公司普遍以“合理使用”为由进行辩护,若法院作出对其有利的判决,则会从根本上削弱版权法。
不仅在美国,在世界其他地方也是如此。除了诉讼之外,她还解释说,一些政府迫于大型科技公司的压力,正在考虑通过立法途径对版权法做出宽泛的例外规定,包括“避风港原则”以及“文本和数据挖掘(TDM)”的例外规定,这不仅会侵占作者和出版商宝贵的知识产权,还有可能导致图书、科技期刊和教材的市场替代。
同时应当看到,因为一些科技公司对合法获取和高质量内容感兴趣,授权许可案例也在美国和其他地方不断涌现。这些授权许可案例为创作者提供了新的市场机会,同时也有力驳斥了“合理使用“的主张以及某些科技公司“授权太难”的论调。
Maria强调,创意界视为文学和创意作品的内容,被某些人工智能公司视为数据,更甚者通过盗版网站和翻越付费墙获取,这样的行为更加不可接受。
02
模型训练是商业化的,且是对版权的公然侵犯,如同“公牛闯进瓷器店”*般不可容忍
Ed回忆,他从2010年左右就开始从事现在被称为“生成式人工智能”的工作,但在当时人们习惯称之为“创意式人工智能”(Creative AI)。那时“生成式人工智能”这个术语还不流行,并且像现在这样的生成式人工智能商业应用还未出现。在那个年代,几乎没有人在未经许可的情况下使用版权作品,那时人们都正确地认为那样做是非法的。
但是随着技术的飞跃,情况悄然改变。在2022年,一些众所周知的公司认为他们的大模型表现出色,进而将其商业化发布,而这些模型是以学术研究的名义,通过“文本和数据挖掘”版权例外抓取数据训练出来的。在Ed看来,这些公司无视法律,认为自己不会失败。这些公司快速筹集了巨额资金,增长之快令人震惊。一块多米诺骨牌倒下,其后就有成千上万家人工智能公司效仿,他们想,既然那家公司都这样做了,我或许也能逃脱干系。
Ed坦言,他之所以深度参与到为创作者维权的工作中来,原因之一是那些侵权行为令他痛苦。他说,我们本有另一条行业可以遵循的路径(授权许可),并且已经遵循了很长时间。遗憾的是,少数人(其中多数没有创意产业经验)决定不走这条路,在版权法方面采取了一种“公牛闯进瓷器店”*的方式,这是不应该被容忍的。Ed说,面对侵权行为,法律诉讼是非常重要的维权手段,每当有诉讼落地,他都会感到欣慰,因为这至少说明人们还在抗争。而在采访的当天印度就有一起新诉讼。
Maria对此深表赞同。她说,这些人工智能公司往往是有史以来最富有的公司,这意味着它们本可以并且应该寻求授权使用版权内容进行模型训练。Maria相信,这些版权纠纷案件将在美国朝着正确的方向发展,保护版权将成为保护公共利益的更大监管计划的一部分。
03
抗议人工智能训练数据侵权行为的声明
Ed认为,这是迄今为止同类声明中响应最广泛的一份,但有趣的并不是获得了多少签名,而是获得签名有多么容易。“我们真的不需要为此付出太多努力。原因很简单,那就是每个人都同意这份声明。” Ed说,“说实话,如果你看民意调查,95%到97%的创作者都同意这个声明。”大家可能会用不同的方式表达,但本质上都认为,在没有获得授权的情况下使用创作者的作品来训练那些与他们竞争的模型非常离谱。
同样,当询问普通公众时,大多数人也同意这个或类似的声明。但有两种人除外:一种是从中受益的人工智能公司和未经同意就剥削创作者劳动成果的风险投资人;另一种是在X和其他社交媒体上非常活跃的使用人工智能的网红,因为他们喜欢通过使用这些工具来吸粉。Ed直言,“我认为我们必须牢记这一点,我希望政府也能牢记这一点。我认为我们应该不断提醒他们这35,000多人(采访当时的数据,目前已超过)的立场,这35,000多人与同意这种观点的总人数相比,只是沧海一粟。”
04
人工智能公司总说授权许可难,可是真的努力尝试过吗?
Ed表示,在商业化生成式人工智能应用之前的十年,基本上是2010年代,没有人在未经授权的情况下使用版权作品。那时,授权许可是行业普遍遵循的一条行之有效的路径。
但是现在,一些人工智能公司说获取训练数据的授权太难。对此,Maria在采访中提到,一些有良知的科技公司愿意通过授权方式合法获取创意内容,数字时代的授权也不乏成功先例。她说,人工智能公司通过授权使用版权作品对创作者而言是新的市场机会,同时也是对其他一些大型科技公司声称“授权太难”的有力反驳。Ed还提出了一个有趣的问题:在一些人工智能公司发布模型之前,他们真的努力尝试过去获取训练数据的授权吗?
为了进一步说明背景,Maria补充道,有些人工智能公司说授权时间太长,但除了这一点(这一点仍值得商榷),人工智能技术发展非常快,而创作过程本质上更需要时间。作家写一本书、电影人制作一部电影、音乐家创作一首乐曲都需要很长时间。尽管授权可能需要时间,但你最终会达到同样的目标,仍然会获得同样强大的模型,而且不会破坏作者和出版商的生计。
05
“选择退出”机制显失公平,且是镜花水月
选择退出机制也是目前版权界多有争议的话题。正如Maria所解释的,它将颠覆版权体系,不是让用户在使用他人知识产权之前寻求许可,而是将责任放在创作者身上,要求他们监控未经授权的使用并选择退出。Ed认为,当前对选择退出机制的宣扬,已经开始固化“选择退出是默认规则,除非权利人站出来说‘我不想参与其中。’”这种论调。
为了说明这一点,Ed在采访中举了一个例子。他说,世界上使用最广泛的选择退出方案是爬虫协议(Robot Exclusion Protocol),在网站上的robot.txt文件中可以写入选择退出代码,但实际上这在选择退出方面还远远不够。
有很多原因,但主要一点是不能对内容的下游副本也做选择退出。也就是说,你可以在自己的网页上写入选择退出代码,但是你的作品会在合理使用的范围内被其他人使用,或者被人截图分享到X或其他社交媒体上,这些情况经常发生。但是,你无法对这些通过其他形式传播出去的内容也作选择退出。因此,选择退出机制只是给权利人一种可以掌控自己内容的错觉。
选择退出机制还有许多其他问题,比如权利人不知道或没有及时采用选择退出等等。对于权利人来说,选择退出是个既没用又沉重的负担。如果采用选择退出机制,就意味着人工智能公司可以肆意获得他们想要的任何内容,而政府似乎希望人工智能公司在此博弈中获胜,这是很可怕的。
06
仅有透明度原则远远不够,合成数据事实上是“版权洗白”(Copyright laundering)
Ed指出,当前很多国家都在不同程度上制定人工智能模型训练内容的透明度原则,比如欧盟刚刚推出的《通用人工智能实践准则(初稿)》(First Draft General-Purpose AI Code of Practice)中也有相关规定。但这只是名义上的透明,对权利人并不是真正的透明,因为它只会流向科技公司的人工智能办公室。尽管透明度这个提法本身是好的,但甚至法律都没有明确定义透明度。
Ed表示,关于透明度,还有几个问题。首先,透明度本身并不能解决问题,如果允许未经授权使用版权内容训练模型,那么透明度又有什么用呢?此外,在立法和监管的讨论中,有重要的一个方面被忽略了,那就是合成数据。实际上,人工智能公司通常被他们的律师建议尽量使用合成数据来训练模型。合成数据是生成式人工智能模型根据版权内容生成的内容,这个过程实际是一种“版权洗白”,因为你的作品通常不会出现在合成数据中,但是他们被用来生成那些合成数据。目前的情况是,世界上还没有任何法规来规制合成数据,而透明度规则也不要求你说出合成数据的来源。
关于IPCC
在华国际出版商联盟(International Publishers Coalition in China,IPCC)成立于2010年,是由多家国际出版机构联合?发设?的?正式、?营利、非法人的?业互助联合体。目前IPCC成员总数28家,广泛涵盖了科技医学出版、学协会出版、教育出版、大学出版、大众出版及出版服务等多个领域。
IPCC始终以“搭建中外出版桥梁,促进出版产业繁荣发展”为宗旨,推动中外出版界的友好交流,以对话促合作,以合作达共赢。