副驾驶:人工智能版权战的下一阶段?

Learn, share, and connect around europe dataset solutions.
Post Reply
pappu636
Posts: 457
Joined: Thu Jan 02, 2025 8:40 am

副驾驶:人工智能版权战的下一阶段?

Post by pappu636 »

版权之争又回来了,而这一次的冲突完全是关于人工智能的。虽然大多数公众一直在关注 DALL-E 等 AI 艺术工具的进展,但当前的 AI 发展阶段始于文本工具,尤其是 GPT-3 和 Github 的 Copilot 这一代码编写奇迹。我之前写过关于这两种工具的一些版权影响的文章(这里和这里),但如果你不想阅读两篇博客文章,Copilot 是一种根据提示编写代码的 AI 工具。该程序已在提交给开源软件存储库 Github 的代码语料库上进行了训练,它使用了OpenAI 的 Codex。

几乎从一开始,Copilot 就引起了争议,一些人抱怨这违反了开源原则(并且可能侵犯版权),但它似乎被一些开发人员广泛使用,根据 Github 的数据,在 12 个月内该工具已被 120 万用户使用。

输出侵权

随着时间的推移,开发人员对可能侵犯版权的指控不断出现。在最近的 Twitter 帖子中,计算机科学教授 Tim Davis 发现 Copilot 向他推荐了一些代码。



虽然输出结果并不完全一致,但相似程度足以证明侵权。从几张截图中无法确定,但毫无疑问,代码非常相似,甚至非常相似。不过,蒂姆·戴维斯排除了采取法律行动的可能性。

那么,在这起案件以及其他案件中,Copilot 是否侵犯了版权?

虽然上述案例中的证据似乎很充分,但代码并不完全相同,一些评论者以及 Davis 本人都假设代码来源可能来自第三方,该第三方将其上传到 Github,并进行了修改,但没有注明 Davis 的来源。Github 知道代码复制确实时有发生,但他们认为这种情况非常罕见:

GitHub Copilot 建议的绝大多数代码都是从未见过的。我们最新的内部研究表明,大约 1% 的时间里,建议可能包含一些长度超过约 150 个字符且与训练集相匹配的代码片段。之前的研究表明,许多此类情况发生在 GitHub Copilot 无法从您编写的代码中收集足够的上下文信息,或者当存在一个通用的、甚至是普遍的解决方案时。

输出中偶尔会出现一些重复的情况,特别是对于可能很流行的代码,或者可能是特定问题的通用解决方案。在我看来,这取决于具体情况,但至少从我看到的几个重复的例子来看,我认为侵权诉讼不会成功,但现在还为时过早。

投入品侵权

虽然在输出中发现侵权可能很困难,但输入问题才是事情真正开始升温的地方。最有趣的法律辩论发生在用于训练机器学习模型的数据上。这是与艺术模型持续争论的很大一部分(在此处讨论),但未来诉讼的第一枪很可能涉及 Copilot。

程序员兼律师Matthew Butterick宣布将对 Copilot 展开调查,并最终对 Github 及其母公司微软提起集体诉讼,此举引起了广泛关注。我不会详细讨论他的论点,但在我看来,它们可以归结为以下几点:

Copilot 根据 Github 用户上传的代码进行训练。
该代码受开源许可约束,但具有多项限制,例如版权条 德国手机数据 款和署名要求。
由于这些限制并未得到满足,因此 Copilot 侵犯了许多上传项目的许可条款,这意味着他们对该代码的使用是侵权的。
如果他们侵权,那么他们必须依赖合理使用。
对于机器学习的训练数据,没有合理使用辩护。
因此微软侵犯了版权。
投诉中还有非常强烈的道德因素。开源软件社区是为了共享代码而存在的,但 Copilot 却把这些代码封闭在围墙花园中,对社区没有任何贡献。

这可能是我们迄今为止见证的对人工智能的最大潜在挑战,其影响不可低估。我对此有一些疑问,巴特里克是对的吗?

[开始之前,我要先声明一下,巴特里克是一名美国律师,他的分析是基于美国法律的。我不是美国律师,虽然我熟悉一些判例法,但请谨慎对待我的意见,一如既往,我愿意接受法律方面的纠正。]

巴特里克的分析基于两个假设,首先,使用开源代码训练机器学习模型将触发开源许可条款;其次,机器学习中不存在合理使用。
Post Reply