五家大型出版商與一位知名作家聯手控告 Meta,指控其在訓練 Llama AI 模型時,大規模非法複製受版權保護的書籍與期刊文章,構成「史上最嚴重的侵權行為之一」。

訴訟指出,Macmillan、McGraw Hill、Elsevier、Hachette、Cengage 以及作家 Scott Turow 指控 Meta 在未經授權的情況下「一再複製」他們的書籍與期刊文章。

訴訟指控 Meta 明知故犯,從 LibGen、Anna’s Archive、Sci-Hub、Sci-Mag 等「惡名昭彰的盜版網站」竊取受版權保護的作品,並將這些資料輸入其 AI 模型。訴訟還聲稱,Meta 使用 Common Crawl 資料集中的資訊來訓練 Llama,而該資料集據稱「充斥著未經授權的版權作品副本」。結果是,Llama「會輸出與版權材料逐字或近乎逐字相同的替代品」。

例如,當使用 Cengage 最暢銷教科書《Calculus: Early Transcendentals, 9th edition》作者 James Stewart 的兩句簡短引文作為提示時,Llama 便開始逐字複製該部分的後續內容。

先前已有數名作家因涉嫌侵犯版權而起訴 Meta,這也揭露了該公司內部關於如何處理「暗示我們使用了已知是盜版資料集的媒體報導」的討論。去年,一名聯邦法官在一項訴訟中裁定 Meta 勝訴,但他也指出,他的裁決「並不代表 Meta 使用版權材料訓練其語言模型是合法的」。

另一組作家也因侵犯版權起訴了 Anthropic。雖然一名聯邦法官裁定,在未經授權的情況下,使用合法購買的書籍訓練 AI 模型屬於「合理使用」,但他允許作者就 Anthropic 聲稱盜版的「數百萬」件作品提起集體訴訟。去年,Anthropic 同意向作家支付 15 億美元以和解該集體訴訟。

Turow 和出版商團體正在向 Meta 尋求損害賠償,並要求法院命令該公司停止其所謂的非法活動。他們還要求法院強制該公司提供一份其訓練 Llama AI 模型所使用的書籍、期刊文章和其他版權作品的清單。

Meta 發言人 Dave Arnold 在發送給 The Verge 的電子郵件聲明中表示:「AI 正在為個人和公司提供變革性的創新、生產力和創造力,法院也正確地認定,使用版權材料訓練 AI 可以構成合理使用。我們將積極應對這項訴訟。」

出版商控告 Meta AI 訓練過程「逐字複製」侵犯版權出版商控告 Meta AI 訓練過程「逐字複製」侵犯版權出版商控告 Meta AI 訓練過程「逐字複製」侵犯版權出版商控告 Meta AI 訓練過程「逐字複製」侵犯版權出版商控告 Meta AI 訓練過程「逐字複製」侵犯版權出版商控告 Meta AI 訓練過程「逐字複製」侵犯版權