摘要: Openai表示,它正在构建一种工具,即媒体经理,以允许内容创建者“选择”对AI模型的培训。
OpenAI 开发新工具帮助创作者控制其内容在训练生成式 AI 中的使用
OpenAI 正在开发一款名为 Media Manager 的工具,让创作者更好地控制他们的内容在训练生成式 AI 中的使用。
这个工具将允许创作者和内容所有者向 OpenAI 标识他们的作品,并指定他们希望这些作品如何被包含或排除在 AI 研究和训练中。
OpenAI 希望在 2025 年前推出这个工具,该公司正在与“创作者、内容所有者和监管机构”合作,以制定一个标准 — 或许通过最近加入的行业指导委员会。
“这将需要前沿的机器学习研究,构建一种首创的工具,帮助我们在多个来源中识别受版权保护的文本、图像、音频和视频,并反映创作者的偏好”,OpenAI 在一篇博文中写道。“随着时间的推移,我们计划推出更多选择和功能。”
Media Manager 看起来是 OpenAI 对其开发 AI 方法的日益批评的回应,该方法严重依赖于从网络上公开数据。最近,包括芝加哥论坛报在内的八家知名美国报纸起诉 OpenAI,指控 OpenAI 在训练生成式 AI 模型时盗用了文章,并在商业化过程中没有对来源出版物进行补偿或署名。
生成式 AI 模型,包括 OpenAI 的模型,通常在大量来自公共网站和数据集的示例上进行训练。OpenAI 和其他生成式 AI 供应商辩称,公平使用这一法律原则允许使用受版权保护的作品来制作二次创作,只要这些作品具有变革性,就可以保护他们从公共数据中获取并用于模型训练的做法。但并非所有人都同意这一观点。
事实上,OpenAI 最近辩称,如果没有受版权保护的材料,将无法创建有用的 AI 模型。
为了安抚批评者并抵御未来的诉讼,OpenAI 采取了与内容创作者妥协的步骤。
去年,OpenAI 允许艺术家选择退出并从公司用于训练图像生成模型的数据集中删除他们的作品。该公司还允许网站所有者通过 robots.txt 标准指示,该标准向网络爬虫提供有关网站的指令,指出他们网站上的内容是否可以被用于训练 AI 模型。OpenAI 还继续与大型内容所有者签订许可协议,包括新闻机构、库存媒体库和问答网站如 Stack Overflow。
然而,一些内容创作者表示 OpenAI 的做法还不够。
艺术家们描述了 OpenAI 对图像的退出流程为繁琐,需要提交每个要删除的图像的副本以及描述。据称,OpenAI 对内容的许可支付相对较少。正如 OpenAI 在周二的博文中承认的那样,公司目前的解决方案并未解决创作者的作品被引用、混音或在他们无法控制的平台上重新发布的情况。
除了 OpenAI 外,许多第三方正在尝试为生成式 AI 构建通用溯源和退出工具。
初创公司 Spawning AI,其合作伙伴包括 Stability AI 和 Hugging Face,提供了一款应用程序,用于识别和跟踪机器人的 IP 地址以阻止爬取尝试,以及一个数据库,艺术家可以在其中注册他们的作品,以禁止供应商使用这些作品进行训练。Steg.AI 和 Imatag 帮助创作者通过应用人眼看不见的水印来建立对其图像的所有权。芝加哥大学的项目 Nightshade “毒化” 图像数据,使其对 AI 模型训练无用或干扰。