互联网上的数据被用来训练人工智能

5.3K 0 0

摘要: 一些公司让您选择不允许您的内容用于生成AI。这是从Chatgpt，Google的双子座等获得（至少一点）控制的方法。

互联网上的数据被用来训练人工智能

如果你曾经在互联网上发布过任何内容，比如一条简短的推文、一篇博客文章、一篇评论，或者在Instagram上发布的自拍照，那么很可能你的内容已经被用来训练当前一波人工智能。大型语言模型和图片生成器，比如CHAT GPT，都依赖于大量的数据。即使这些数据并非用于聊天机器人，也可以被用于其他机器学习功能。

科技公司已经擦取了大量互联网数据，他们声称这些数据是创建人工智能所必需的，却很少考虑内容创作者、版权法律或隐私权。此外，越来越多拥有大量用户发布内容的公司也希望通过出售或许可这些信息来参与人工智能的热潮。Reddit就是其中之一。

用户对互联网内容的控制权有限

在讨论如何选择退出之前，值得设定一些期望。许多构建人工智能的公司已经擦取了互联网，所以你发布的任何内容很可能已经在他们的系统中。公司对于他们实际擦取、购买或用于训练系统的内容保持着神秘。华盛顿大学的AI隐私研究员Niloofar Mireshghallah表示：“我们实际上并不了解太多。总的来说，一切都是黑匣子。”

Mireshghallah解释说，公司可能会让选择退出数据用于人工智能训练变得复杂，即使有可能选择退出，很多人也不清楚他们同意了什么权限或数据如何被使用。在考虑到各种法律，比如版权保护和欧洲严格的隐私法律之前，Facebook、Google等公司已经在他们的隐私政策中写明，他们可能会使用你的数据来训练人工智能。

虽然有各种技术手段可以从人工智能系统中删除数据或“取消学习”，Mireshghallah表示，目前对于这些过程了解甚少。选择退出AI训练数据很可能是一场艰苦的战斗。一些公司开始允许用户选择退出未来的擦取或数据共享，但几乎总是默认让用户选择加入。

“大多数公司增加了障碍，因为他们知道人们不会去寻找它，”电子前沿基金会的安全和隐私活动家Thorin Klosowski说道。“选择加入将是一个有意识的行动，而不是选择退出，你必须知道它的存在。”