偷下电子书、被罚15亿美元后,Claude又毁掉了百万本实体书
即将开始“史上最大AI公司IPO”的Anthropic,也即将赔付美国版权诉讼史上的最大一笔赔偿——15亿美元。
2025年,一群作家状告了Claude的母公司Anthropic,最终拿到了和解协议。
这本应是一个关于人类创作尊严、AI伦理边界、硅谷巨头与普通写作者之间博弈的宏大故事。然而,当这场官司来到最后一幕,最热闹的话题不是AI、不是版权、不是AI创造力的界限——而是律师费。
原告律师们觉得自己已经很克制了,最开始“只”要了3亿美元。而被侵权的作者们数了数自己能拿到的部分:每部作品大约3000美元,版权方还得再分走一点。
原告作者觉得律师拿的太多了,法官也觉得。甚至连被告方,也对律师费提出了异议。
这场关于AI与人类创意之间的纠纷,究竟是怎么走到如今的地步?
书是人类进步的阶梯
也是AI的
“书中自有黄金屋”,AI科技公司也深知这一点。相比于互联网上的帖子、文章而言,书籍当然包含着更为优质的文本内容。
想让AI生产出高质量的文本内容,那用书籍作为训练集去训练AI,就成了一件理所当然的事。这也早就成为一个公开的秘密了。
不过,这个公开的秘密经不起深挖。2023年,有人分析了被AI公司广泛使用的大型训练文本库“The Pile”,发现其中包含了一个名为“Books3”的数据集。这是一个包含了近20万册图书的在线图书馆数据集,而且书籍的来源几乎都是盗版网站。
惊悚小说家安德里亚·巴茨(Andrea Bartz)将自己的名字输入到数据集的搜索栏中时,发现自己的作品赫然在列。随后,巴茨联系了律师事务所,并作为原告之一,正式对Anthropic公司提起了集体诉讼。
安德里亚·巴茨|nytimes.com
随着证据的进一步披露,越来越多的内部信息被曝光。原来,Anthropic想要的,比“Books3”更多。
盗版、更多的盗版
如果说使用“Books3”数据集是业界的一项不成文的共识,那直接从盗版网站上大批量下载书籍,就很难说不是有意为之了。
法庭文件显示,早在2021年1月至2月,Anthropic联合创始人本杰明·曼恩(Benjamin Mann)就亲自从Books3下载了那196,640本书。后来,曼恩更是开始了一场马拉松式的下载。2021年6月,曼恩从盗版网站下载了至少500万本的盗版图书。
很显然,这并不是什么误操作。一年后,曼恩的一句话更是证明了他很清楚自己正在做什么。2022年7月,一个新的盗版图书网站上线,该网站声称拥有庞大的图书数据库。法庭文件显示曼恩在这个新的网站上下载了至少200万本盗版图书,与此同时,他还将该网站的链接发送给了其他员工,并附言:“真是太及时了!!!(just in time!!!)”
Anthropic的另一位联合创始人,也是该公司的CEO达里奥·阿莫代伊(Dario Amodei)对此也是知情的。在一封内部邮件材料中,阿莫代伊谈到了为什么公司不去寻求正版授权购买图书时,使用了这样一个理由:法律/实践/商业上的繁琐工作(legal/practice/business slog)。简单点说,就是买正版授权,太麻烦了。
至此,Anthropic公司使用盗版书籍的事实已经是板上钉钉。2025年6月23日,法官发布了一份简易判决。法官裁定,Anthropic公司从盗版网站下载书籍并长期持有的行为,不受合理使用保护。每一个“已知是盗版的下载行为”,都是一次侵权。不仅如此,这次诉讼的范畴已经扩展到所有受到影响的版权拥有者。
随后,Anthropic公司与原告方达成了一项和解协议,同意向受到影响的版权方支付共15亿美元,并销毁所有的盗版书籍内容。
但作者们并不是“大获全胜”,判决结果中的另一部分,却让AI公司找到了另一个途径继续用图书训练AI。
读书人的事,能算偷么?
那如果是AI读呢?
在这份判决书里,法官裁定用合法获取的书籍训练AI,属于“极具变革性”的创作行为,属于“合理使用”(fair use)条款保护的行为。
也就是说,Anthropic公司要是用正版书训练AI,就不构成侵权。
令作者们感到诧异的是,Anthropic公司真的这么干了。在2026年1月公开的一项新的材料中,Anthropic公司的一项秘密项目被公之于众:巴拿马项目(Project Panama)。
巴拿马项目本身并不新鲜:员工将买来的实体书逐本切开书脊,页页扫描,再把切碎的纸页送去回收。
Pixabay
在约一年时间内,Anthropic花费了数千万美元,购买并破坏性地扫描了数以百万计的实体书。如此操作,Anthropic公司就可以合理化地拥有一系列正版书文本,并将其用于AI的训练。
这真的合理吗?
至少本案的法官认为是合理的。法官在裁决里列举了一系列理由,并将训练AI类比为人类阅读和引用书籍:“作者无权禁止任何人将他们的作品用于培训或学习。每个人都会阅读书籍,也会创作新的作品。他们或许需要付费才能获得书籍。但如果要求人们每次阅读、每次回忆、每次以新的方式引用书籍内容时都必须付费,那就太不可思议了。”
这引起了很多争议。一方面,支持科技公司的群体认为这是人工智能的一大胜利,在未来可以合理地使用文学内容对AI进行进一步的训练。但另一方面,作家群体和人工智能伦理学方向的学者认为,法官的裁决很容易被辩驳,比如将人工智能的训练比作人类学习,就存在不妥的地方。
关于AI的训练与人类的创造,或许是接下来很长一段时间都无法掰扯清楚的话题。
毕竟,这个故事里的人类和人类,都还有些事情没有掰扯清楚。
律师:我要的并不多
在双方达成了和解协议之后,另一个问题随之而来:15亿美元的费用,原告方的律师团队要拿走多少?
最开始的答案是3亿美金,也就是和解基金的20%。律师们称,与其他的巨额赔偿案相比,他们的报价已经是“较为保守”的了。
但这个数额遭到了Anthropic公司和法官的质疑。双方认为在律师费的具体分配上,原告律师并没有给出详细的工时记录表。一些参与集体诉讼的作者也表示反对,认为律师费过高。毕竟算下来,案件中被侵权的每部作品只能获得3000美元左右的赔偿,而且作者只能拿到这其中的一部分,剩下的需要交给版权方。
2026年3月,集体诉讼律师决定降低律师费的比例至12.5%,也就是1.875亿美元。
Pixabay
尽管如此,在5月14日举行的最终审批听证会上,依然有7位反对者对具体费用等情况提出了质疑。
不过已经有超过90%的作品接受了和解协议,按照目前的局势,大概最终的和解协议也不会再有什么意外的变化了。
题图及文中没有注明来源的图片均为AI生成
参考文献
[1]Revealed: The Authors Whose Pirated Books Are Powering Generative AI.https://www.theatlantic.com/technology/archive/2023/08/books3-ai-meta-llama-pirated-books/675063/
[2]The Thriller Writer Who Took on a Tech Giant. https://www.nytimes.com/2025/10/03/books/review/andrea-bartz-anthropic-lawsuit.html
[3]Authors v Anthropic ruling.
[5] Inside an AI start-up’s plan to scan and dispose of millions of books. https://www.washingtonpost.com/technology/2026/01/27/anthropic-ai-scan-destroy-books/
[6]关于律师费用的质疑文件:https://storage.courtlistener.com/recap/gov.uscourts.cand.434709/gov.uscourts.cand.434709.511.0.pdf
[8] Anthropic Settlement Hearing Proceeds Smoothly.https://www.publishersweekly.com/pw/by-topic/digital/copyright/article/100438-little-drama-at-anthropic-s-settlement-hearing.html[9]
Bartz v. Anthropic Settlement: What Authors Need to Know. https://authorsguild.org/advocacy/artificial-intelligence/what-authors-need-to-know-about-the-anthropic-settlement/
作者:普拉斯G
编辑:Luna
如有需要请联系[email protected]
点个“小爱心”吧



+61
+86
+886
+852
+853
+64
