如何使用AI做事：全网最全指南

AI2年前 (2023)发布 baiyu

8.8K 0 0

越来越强大的人工智能系统正在以越来越快的速度发布。本周，Claude 2首次亮相，这可能是公众可用的第二强大的AI系统。一周前，Open AI发布了代码解释器，这是迄今为止最先进的AI模式。在那之前的一周，一些AI获得了查看图像的能力。

然而，似乎没有一个人工智能实验室提供任何用户文档。相反，唯一的用户指南似乎是Twitter影响者线程。

这可能不是一个完美的用户指南，但它将作为人工智能当前状态的一点方向。接下来是小编给出的一些建议，关于如何选择正确的工具来做事，以及AI执行的任务类型，这些任务可能会你的工作或者生活很有帮助。

主要的大型语言模型

当我们现在谈论人工智能时，我们通常谈论的是大型语言模型或LLM。大多数AI应用程序由LLM提供支持，其中只有少数几个基础模型，由少数组织创建。每家公司都可以通过聊天机器人直接访问他们的模型：OpenAI制造GPT-3.5和GPT-4，它们为GPT和Microsoft的Bing提供支持（在Edge浏览器上访问它）。谷歌在巴德的标签下有各种各样的模型吟游诗人。而《人择》使克劳德和克劳德2。

还有其他LLM我不会讨论。第一个是Pi，一个由Inflection构建的聊天机器人。Pi 针对对话进行了优化，真的，真的很想成为你的朋友（说真的，试试看我的意思）。除了聊天之外，它不喜欢做太多事情，试图让它为你工作是一种沮丧的练习。我们也不会涵盖任何人都可以使用和修改的各种开源模型。它们通常对今天的临时用户无法访问或有用，但具有真正的希望。未来的指南可能会包括它们。

快速参考图表，总结了LLM的状态：

前四个（包括Bing）都是OpenAI系统。目前基本上有两种主要的OpenAI AI：3.5和4。3.5 模型在 4 月掀起了当前的 AI 热潮，3 模型在春季首映，功能更强大。一个新的变体使用插件连接到互联网和其他应用程序。有很多插件，其中大多数不是很有用，但您应该根据需要随意探索它们。Code Interpreter as 是 GPT 的一个非常强大的版本，可以运行 Python 程序。如果您从未为OpenAI付费，那么您只使用了5.4。除了插件变体和具有浏览功能的 GPT-4 的暂时暂停版本外，这些模型都没有连接到互联网。Microsoft的Bing混合使用3和5.4，通常是GPT系列中第一个推出新功能的型号。例如，它既可以创建和查看图像，也可以在 Web 浏览器中读取文档。它连接到互联网。Bing 使用起来有点奇怪，但功能强大。

谷歌一直在测试自己的人工智能供消费者使用，他们称之为Bard，但它由各种基础模型提供支持，最近的一个称为PaLM 2。对于开发LLM技术的公司来说，他们非常令人失望，尽管昨天宣布的改进表明他们仍在研究底层技术，所以我有希望。它已经获得了运行有限代码和解释图像的能力，但我现在通常会避免使用它。

最后一家公司Anthropic发布了Claude 2。克劳德最引人注目的是有一个非常大的上下文窗口 – 基本上是LLM的内存。克劳德几乎可以保存整本书或许多PDF。与其他大型语言模型相比，它不太可能恶意行事，这意味着，实际上，它往往会责骂你一些东西。

现在，谈谈一些AI应用的一些用途：

写东西

最佳免费选项：Bing 和Claude 2
付费选项：GPT 4.0/GPT 带插件

目前，GPT-4仍然是功能最强大的AI写作工具，您可以在Bing（选择“创建模式”）免费或通过购买每月20美元的GPT订阅来访问。然而，克劳德紧随其后，并且可用的免费选项有限。

这些工具也直接集成到常见的办公应用程序中。Microsoft Office将包括一个由GPT驱动的副驾驶，Google Docs将整合巴德的建议。这些新的创新对写作的意义是相当深远的。

以下是使用 AI 帮助您编写的一些方法。

写任何东西的草稿。博客文章、散文、宣传材料、演讲、讲座、选择自己的冒险、脚本、短篇小说——你能想到的，人工智能都能做到，而且做得很好。您所要做的就是提示它。提示制作不是魔法，但基本的提示会导致无聊的写作，但更好地提示并不难，只需与系统交互工作即可。你会发现人工智能系统作为作家的能力要强得多，只要稍加练习。
让你的写作更好。将文本粘贴到 AI 中。要求它改进内容，或有关如何使其更好地为特定受众提供建议。要求它以完全不同的风格创建 10 个草稿。要求它使事情更加生动，或添加示例。用它来激励你做得更好。
帮助您完成任务。人工智能可以做你没有时间做的事情。像实习生一样使用它来编写电子邮件、创建销售模板、为您提供商业计划的后续步骤等等。以下是我在 30 分钟内支持产品发布时可以完成的工作。
解锁自己。很容易被一个困难的挑战分散对任务的注意力。人工智能提供了一种给自己动力的方式。

可以生成完全令人信服的完全虚假内容。让我强调一下：人工智能持续不断地撒谎。它告诉你的每一个事实或信息都可能是不正确的。您将需要检查所有内容。特别危险的是要求它提供互联网的参考、引用、引用和信息（对于未连接到互联网的模型）。必应通常比其他型号产生幻觉更少，因为 GPT-4 通常更接地气，而且必应的互联网连接意味着它实际上可以提取相关事实。这是避免幻觉的指南，但它们不可能完全消除。

还要注意的是，人智能并不能解释自己，它只会让你认为它能解释。如果你要求它解释它为什么写一些东西，它会给你一个完全编造的合理答案。当你问它思考过程时，它不是在质疑它自己的行为，它只是在生成听起来像是在这样做的文本。这使得理解系统中的偏见非常具有挑战性，即使这些偏见几乎肯定存在。

它也可以不道德地用于操纵或作弊。您负责这些工具的输出。

绘制图像

最透明的选项：Adobe Firefly
开源选项：最佳：Bing （使用稳定扩散免费选项或 Bing Image Creator DALL-E）、Playgound（允许您使用多个模型）
最佳质量图像：中途

有四个大型图像生成器可供大多数人使用：

稳定的扩散，这是开源的，您可以从任何高端计算机运行。入门需要努力，因为您必须学习正确制作提示，但是一旦您这样做就可以产生很好的结果。它特别适合将AI与其他来源的图像相结合。如果你走这条路，这里有一个很好的稳定扩散指南（一定要阅读第1部分和第2部分）。
DALL-E，来自OpenAI，它被合并到Bing（你必须使用创作模式）和Bing图像创建器中。这个系统很可靠，但比中途更糟糕。
中途，这是 2023 年中期最好的系统。它具有所有系统中最低的学习曲线：只需输入“你想看到的东西–v 5.2”（最后的–v 5.2很重要，它使用最新的模型），你就会得到一个很好的结果。中途需要不和谐。这是使用不和谐的指南。
Adobe Firefly，内置于各种Adobe产品中，但在质量方面落后于DALL-E和Midjourney。然而，虽然其他两个模型不清楚他们用来训练AI的源图像，但Adobe已经宣布它只使用它有权使用的图像。

以下是它们的比较方式（每个图像都标有模型）：如何使用AI做事：全网最全指南

需要担心的一些事情：这些系统是围绕模型构建的，这些模型由于对互联网数据的训练而具有内置偏见（例如，如果您要求它创建企业家的图片，您可能会看到男性多于女性的图片，除非您指定“女性企业家”），您可以使用此资源管理器查看工作中存在的这些偏见。

这些系统还以不透明的方式对互联网上的现有艺术进行了培训，并且可能在法律和道德上存在问题。虽然从技术上讲，您拥有所创建图像的版权，但法律规则仍然模糊不清。

此外，现在，他们不创建文本，只是一堆看起来像文本的东西。但中途已经钉住了手。

提供创意

最佳免费选项：Bing

付费选项：GPT 4.0，但Bing 可能更好，因为它的数据几乎是实时的。

尽管（或者事实上，由于）它的所有限制和怪异，人工智能非常适合产生想法。你经常需要有很多想法才能有好的想法，而人工智能擅长数量。通过正确的提示，您还可以强制它非常有创意。让 Bing 在创作模式下查找您最喜欢的不寻常的想法生成技术，例如 Brian Eno 的倾斜策略或 Mashall McLuhan 的四分体，并应用它们。或者要求一些奇怪的东西，比如受随机专利启发的想法，或者你最喜欢的超级英雄……

制作视频

最佳动画工具：D-i D，用于对视频中的人脸进行动画处理。

最佳语音克隆：十一实验室

现在，生成一个完全由人工智能生成的角色的视频，阅读一个完全由人工智能编写的脚本，用人工智能制作的声音说话，由人工智能动画，这是微不足道的。它也可以深度伪造人，正如你在这个链接中看到的那样，我深深地伪造了自己。说明和更多信息在这里。请谨慎使用，但这非常适合解释器视频和介绍。

第一个商用的文本到视频工具最近也发布了Runway v2。它创建了 4 秒的短剪辑，更像是对即将发生的事情的演示，但如果您想了解这个领域的未来发展，值得一看。

需要担心的一些事情：深度伪造是一个巨大的问题，这些系统需要合乎道德地使用。

处理文档和数据

对于数据（以及您对代码的任何奇怪想法）：代码解释

器对于文档：Claude 2 用于大型文档或一次多个文档，Bing 侧边栏用于较小的文档和网页（侧边栏，部分 Edge 浏览器可以“看到”浏览器中的内容，让 Bing 处理该信息，尽管上下文窗口的大小有限）

代码解释器是 GPT-4 的一种模式，可让您将文件上传到 AI，允许 AI 编写和运行代码，并允许您下载 AI 提供的结果。它可以用来执行程序，运行数据分析（尽管你需要对统计数据和数据有足够的了解来检查它的工作），以及创建各种文件、网页，甚至游戏。尽管自发布以来，关于未经培训的人员使用它进行分析的风险存在很多争论，但许多测试代码解释器的专家都给人留下了深刻的印象，以至于一篇论文表明，它需要改变我们培训数据科学家的方式。如果您想了解有关如何使用它的更多详细信息，请转到我以前的帖子。我还初步提示设置代码解释器以创建有用的数据可视化。它为它提供了一些良好图表设计的基本原则，并提醒它可以输出多种文件。你可以在这里找到它。

对于处理文本，尤其是PDF，Claude 2到目前为止非常出色。我把整本书都粘贴到以前的克劳德版本中，效果令人印象深刻，新模型要强大得多。您可以在此处查看我以前的体验以及一些可能很有趣的提示。我还给了它许多复杂的学术文章，并要求它总结结果，它做得很好！更好的是，您可以通过提出后续问题来询问材料：这种方法的证据是什么？作者得出什么结论？等等…

需要注意的点：这些系统仍然会产生幻觉，尽管方式更有限。如果要确保准确性，则需要检查其结果。

获取信息和学习内容

最佳免费选项：Bing

付费选项：是最好的。对于儿童，可汗学院的 Khanmigo 提供由 GPT-4 提供支持的良好人工智能驱动辅导。

如果你打算使用AI作为搜索引擎，可能不要这样做。幻觉的风险很高，无论如何，大多数AI都没有连接到互联网（这就是为什么我建议你使用Bing。巴德，谷歌的人工智能，幻觉更多）。然而，根据最近的一项试点研究，有证据表明，如果谨慎使用，人工智能通常可以提供比搜索更有用的答案。特别是在搜索引擎不是很好的情况下，比如技术支持、决定去哪里吃饭或获得建议，必应通常比谷歌更好。这是一个快速发展的领域，但您现在应该小心这些用途。

人工智能是一种工具。它并不总是正确的工具。鉴于其弱点，请仔细考虑它是否适合您计划应用它的目的。
您需要注意许多道德问题。人工智能可以用来侵犯版权，或作弊，或窃取他人的作品，或操纵。如何构建特定的AI模型以及谁从其使用中受益通常是复杂的问题，现阶段还不是特别清楚。最终，您有责任以合乎道德的方式使用这些工具。