安大互联
  • 1
  • 2
  • 3
  • 4
  • 5
商业热点 > 商业洞察 > 版权合作密集,AI公司打算如何分蛋糕? - AI版权战事②

【纽约时报】版权合作密集,AI公司打算如何分蛋糕? - AI版权战事②

查看信息来源】   发布日期:4-11 14:04:32    文章分类:商业洞察   
专题:纽约时报】 【AI公司

  21世纪经济报道见习记者肖潇北京报道

  编者案

  站在2024年,AI造成的版权问题日渐白热化,国内外已经有很多案件涌入司法并落槌,争议、担忧、混沌…… 新产业 与旧秩序缠斗在一起,左右互搏。训练数据版权侵权何解?生成物是否为作品,谁拥有著作权?生成物侵权责任如何划分?产业链愈发精细下,权责如何分配?避风港原则如何适用?......

  当然这不只是法律问题,也事关经济业态、商业模式、产业健康可持续发展。AI的幻影叠落进现实,传统行业寻求新前途,新的利益分配格局需要新的规则,我们处在哪里,要抵达到何处?依旧没有答案。4月26日是世界 知识产权 日,南财合规科技研究院基于此前长期对AI治理的研究,将推出“AI版权战事”系列,与各界共同寻求解法。

  随着版权摩擦的加剧,AI公司们已经意识到,要在这个竞争激烈的新兴地带分一杯羹,务必调整和重视它们的版权战略。

  就在不久前,谷歌因未妥善使用法国新闻内容训练AI而被罚款2.5亿欧元,目前正和法国新闻出版商重新商谈合作。去年12月以来,OpenAI与多家新闻出版商官宣商业合作关系,谷歌与“美国贴吧”Reddit达成版权合作……

  这些密集合作中,我们能看到哪些版权纠纷的解法?一方面,欧盟做出了一个示范,强调提供退出机制和透明度,保障版权方利益。另一方面,21世纪经济报道记者梳理全球AI方和版权方的合作动态,发现版权酬劳、责任分配仍然是谈判中的暗雷。

  在给美国 知识产权 局的回应函中,几乎所有AI大公司都否认了版权付费的合理性。受访专家指出,这是因为大模型的练习过程到底能归类于版权法上的何种行为,还没有明确结论。合作如同在不稳地基上搭建起来的积木楼,布满不确定性。

  违反透明谈判原则

  单看法国这一次对谷歌2.5亿欧元的罚款,是基于谷歌曾经的版权合作承诺,和欧盟的《单一数字市场版权指令》。

  2022年,谷歌跟280家法国新闻媒体机构签署了版权承诺,如果搜索引擎继续抓取新闻,要向新闻出版商支付版权补偿费用。除此之外,协议还确定了“透明、客观、非歧视”的版权酬劳谈判原则。

  而法国竞争管理局今年发现,谷歌在训练Gemini的进程中违反了承诺:在透明度上,谷歌没有告知新闻机构Gemini使用了它们版权内容,更无说明使用方法;在退出机制上,尽管谷歌推出了Google Extended技术——新闻媒体可以在网页中插入名为“”no index的标签,拒绝被网络爬虫抓取成为大模型Gemini的练习素材。但插入这一标签也意味着新闻将在谷歌搜索中完全消失,因此其实不是一种有效的拒绝方式,阻碍了新闻机构的谈判能力。

  同济大学法学院助理教授、上海 人工智能 社会治理协同创新中心研究员朱悦此前向21世纪经济报道记者解释,对于版权方的利益保护,退出机制和透明度很关键。好比透明度能为各方提供充分信息,版权方就能有更多证据去争取有利的补偿。

  朱悦指出,欧盟的《 人工智能 法案》也基本沿用了这一表述,包含尊重版权方作出保存的权利,要求AI全面的透明度。不过AI具体要披露哪些信息、如何披露,《 人工智能 法案》没有详细规定,各国监管可能会逐步细化细则。

  根据法国竞争管理局的要求,谷歌下一步要做的,首先是详细向法国新闻出版商说明,Gemini从训练到输出如何使用了他们的媒体报道。谷歌还需要提供一种技术解决方案,能让新闻机构拒绝为谷歌大模型提供训练素材,这一退出机制的有效性是法国监管机构将来的关重视点。

  “和出版商的谈判变得复杂”

  其实,从去年7月以来,谷歌、OpenAI、苹果已经在就AI版权问题与多家版权方洽谈合作,但不同于谷歌跟法国新闻机构有着明确约定,AI方与版权方的合作存在更多模糊地带。

  拥有超过230家出版物的欧洲媒体巨头Axel Springer是全球第壹个分到蛋糕的版权方。去年12月OpenAI在博客中表示,公司今后可以在大模型的练习中使用Axel Springer的报道,另外,ChatGPT还能帮用户总结Axel Springer的报道,并展示原始报道的出处和完整链接。

  这笔交易的财务信息并没有披露,据《华尔街日报》报道,作为各自行业的巨头,交易费用预计为数千万美元。

  规模更小、更独立的出版机构能分到的蛋糕要小得多。The Information透露,OpenAI计划每年向一些媒体公司提供100万到500万美元的款项,以用其新闻训练大模型。这个数目对于小型媒体来说也非常微薄,因此交易结果其实不被大众看好。

  定价是版权合作中的烫手山芋,《纽约时报》就是“谈崩了”的典型例子。去年4月《纽约时报》开始与OpenAI谈判,但始终没能达成任何付费许可协议。12月27日,《纽约时报》正式将OpenAI告上法庭,指控它们未经许可使报道内容训练AI,要求承担“数十亿美元的法定和实际损失”,标志合作完全破裂。

  北京大学新闻与流传学院教授胡泳在文章中分析,OpenAI的报价很可能与《纽约时报》的期待相差过大,定价策略将非常关键。

  胡泳认为,作为AI“训练素材”的数据价值已经有了根本性调整:以前获得价值要开放数据,现在则要锁定数据。在搜索引擎时代,数字版权报价主要基于内容的曝光量和曝光造成的宣传广告收入,而现在根据大模型公司的收益方式定价可能是最正确的模式,好比利润分享或按API访问次数收费。

  但难题在于大模型产业尚未成熟,盈利能力、营业收入方式还布满变数。胡泳也提到:“所有现在采用统一定价的企业将来都会后悔这样做。它们没有意识到自己的数据到底有多值钱,也木有意识到货币化窗口有多小。”

  同济大学法学院副教授陈吉栋在采访中表示,随着AI训练的切实需求变化,利用“作品表达”逐渐演变为利用“数据”,而数据在我国的法律定性还未明确,这的确为开展AI训练造成一定的不确定性。

  陈吉栋指出AI公司主动寻求和版权方合作,本质是在规避风险。尤其需要谨防的问题是合作授权是否存在瑕疵——好比有没有使用有个人信息的数据、能不能确保 数据安全 底线。和假如未来出现侵权问题,双方约定怎么分配责任。

  这些版权利益谈判的困扰,从谷歌的经历中可见一斑。谷歌在官方博客中写道:“由于缺乏明确的要求,和接二连三的法律诉讼,我们与新闻出版商的谈判变得很复杂,这阻碍了我们未来投资法国信息领域的考虑。我们和其它市场参与者需要更清楚地了解,我们到底要向谁付费,要为啥付费。”“在无法预测准确方向的情景下,确定行动方针非常复杂。”

  AI“学习过程”难定性

  归根结柢,训练AI到底涉及哪些版权法规制的表现?

  美国版权局(Copyright Office)在去年8月到11月之间,公开要求各界回复对训练AI使用版权材料的意见。21世纪经济报道记者整理后发现,几乎所有AI公司都反对训练AI需要版权许可和付费。

  谷歌在回复函中解释,如果拆开看大模型训练过程的每一步——从抓取信息、复制输入四处理分析,只有刚开始的复制行为能落在版权法范畴中,其它行为不触发版权法。这也是许多大公司认可的说法。

  OpenAI这样说明自己训练AI的技术步骤:首先,抓取互联网上公开可用的信息,或是根据第叁方商业协议获得信息;第贰步,向模型“投喂”输入信息;第叁步,模型将文本信息分解成一个个单词长度的token,计算哪些token我们时常一起出现,并转换为一串统计概率;Transformer架构进一步分析所有文本,好比哪个单词对于理解一句话的含义最重要,让AI捕捉到语言的深层结构和模式;最后将这些统计关系留在模型中,完成大模型的预训练。

  简而言之,大模型记住的是统计关系,而不是文本本身。OpenAI表示,大模型的每串数字(即权重)反映了不同单词在不同情境下的统计关系。当有人发出指令时,大模型调用权重预测下一个词和句子——不会通过数据库重新访问版权作品,也不会直接复制粘贴作品的内容。

  但上海大邦律师事务所顶级合伙人游云庭提醒,人们可能不晓得、也很难证明作品输入进大模型后就“不存在了”。其实AI完全可以重现版权作品的副本,《纽约时报》起诉OpenAI的声明,就指出了ChatGPT可以几乎一字不差地复述《纽约时报》报道原文,这是训练AI需要获得版权授权的一个有力证据。

  在陈吉栋看来,AI的疑惑之处在于,它看起来在同时进行“精确复制”和“合理使用”。如果细看大模型训练过程的每一步,可能没办法归类于现在版权法中的任何一种行为,因此难以进行法律定性。

  广东财经大学法学院教授姚志伟也认为,AI的练习过程,的确很难定性为复制等著作权专有权利。现在很流行的说法是训练AI是一种学习行为,类似于读一本书。

  “但问题是,在所谓的学习进程中肯定会复制作品,这就涉及了版权法的复制权。理论上也可以说训练大模型不是为了复制作品,复制只是一种‘中间’行为。所以如果训练AI本身是合理使用,那么复制这种中间行为应该被吸收,有复制行为也不构成侵权。” 姚志伟指出,这种理论在日本《著作权法》和美国的司法案件中有一定体现,但在中国法中没有立法依据,能否在司法上得到认可具有很强的不确定性。

  陈吉栋认为,将机器学习类比为人类学习是一种技术解读。如果回归到立法初衷,会发现著作权法旨在鼓励人们学习、创造、推动知识的流传,而AI背后直接承载着商业目的、间接负担着知识流传,跟人类学习有着本质区别。在陈吉栋看来,即便是普通人在利用作品学习的时候,一般也要付出相应的代价,只有部分情景才会被认定是合理使用。就算AI训练被定性为学习行为,也很难适用合理使用这样的豁免性条款,不去支付对价、承担侵权风险。

  “值得继续思考的是,在传统观念中,只有人类才能从事创造性活动,所以要制止损害人类创造性活动的表现。现在AI开始展现出创造能力,版权法的作品根基可能被撼动。AI技术迅速发展并汇聚了大量投资,是否还需要版权制度来激励?假如未来投资热潮过去,是否又应该探索新的形式来激励创新活动?”陈吉栋告诉21世纪经济报道记者。

手机扫码浏览该文章
 ● 相关商业动态
 ● 相关商业热点
音著协】  【腾讯音乐】  【酷狗音乐】  【网易云音乐】  【著作权】  【纽约时报】  【马丁·路德·金】  【美股市场】  【人工智能】  【高质量】  【理想汽车】  【计算机软件】 
  • 客服与业务咨询

   【网络建设服务报价】