2023年秋天,国内四位插画师发现了一件细思极恐的事—— 她们辛苦创作的原创画作,在毫不知情的情况下,被小红书旗下的AI工具"吃掉"了,成了训练大模型的燃料。生成的图片,和她们的作品在色调、构图、风格上高度相似。 她们愤而起诉。这是中国第一起AI模型训练数据集体侵权案。 与此同时,大洋彼岸,《纽约时报》正在对OpenAI打一场世纪官司。法院最新裁定:要求OpenAI强制披露 2000万条 ChatGPT用户日志,来证明模型有没有把《纽约时报》的付费文章"背下来"。 ⚠️ 大模型的"原罪",你知道吗? 训练一个顶级大模型,需要消化万亿级别的文本数据。这些数据从哪来? 答案是:互联网上的一切。 新闻、小说、论文、帖子、图片……AI公司用爬虫把能抓到的全部打包进训练集。其中绝大多数是受版权保护的作品,而绝大多数AI公司,从未为此支付过一分钱授权费。 ⚖️ 全球法庭正在打一场"大混战" 三大法域,四种态度: 🇨🇳 中国:广州互联网法院2024年作出全球首例生成式AI侵权生效判决(奥特曼案),认定AI生成内容与版权作品"实质性相似"即构成侵权。但杭州法院在另一起案件中持相对宽松立场——两地分歧,规则仍在探索。 🇺🇸 美国:《纽约时报》诉OpenAI案悬而未决,核心问题是:模型能逐字复现付费文章,这还算"合理使用"吗? 🇪🇺 欧盟:全球最严。《AI法案》赋予版权人"选择退出"权——你可以明确声明你的作品不许用于AI训练,AI公司必须遵守。 📋 中国的法律红线,就两句话 《生成式AI服务管理暂行办法》第七条: 训练数据处理活动,不得侵害他人知识产权,须使用具有合法来源的数据。 配套规定还要求:训练前必须主动做知识产权风险识别。 也就是说——"我不知道这些数据有版权",已经不再是有效的抗辩理由了。 💡 法律人的判断 这场战争没有真正的赢家,但会有深刻的输家。 那些现在就建立起完善训练数据合规体系的AI企业,将在未来的监管风暴中岿然不动。那些仍在"裸奔"的企业,正在为自己埋下一颗颗定时炸弹。 对普通创作者而言:你在网上发布的每一篇文章、每一张图,都有可能成为某个大模型的训练素材。你有权利了解这件事,也有权利通过法律手段维权。 这,正是我们这个系列存在的意义。 #AI合规 #大模型训练 #AIGC版权 #人工智能法律 #数据合规 #法律科普