ChatGPT现在可以“看”、“听”和“说”了

热门头条1年前 (2023)发布残剑@葫芦娃AI

10.7K 0 0

OpenAI在其官网宣布，目前正在推出CHAT GPT的新版本，除了通过常见的文本框交互外，现在它正在学会以新的方式理解人类的问题，比如通过大声说话或者上传一张图片。

·随着越来越多的人使用语音控制和图像搜索，并且CHAT GPT越来越接近成为一个真正多模式、有用的虚拟助手，维持住安全护栏会变得越来越困难。
OpenAI在其官网宣布，CHAT GPT现在可以“看”、“听”和“说”了。

自诞生以来，CHAT GPT的大部分更新主要在于，这个基于AI的机器人可以做什么、可以回答哪些问题、可以访问哪些信息，以及如何改进其基础模型等方面。这一次，OpenAI正在调整使用CHAT GPT的方式。

北京时间9月25日晚，OpenAI在其官网宣布，目前正在推出CHAT GPT的新版本，除了通过常见的文本框交互外，现在它正在学会以新的方式理解人类的问题，比如通过大声说话或者上传图片。

具体而言，在语音方面：第一，允许用户进行语音对话，提供更直观的交互方式；第二，支持在iOS和Android移动应用上使用；第三，提供5种不同的语音选择；第四，通过新型文本转语音模型和语音识别系统实现。
这应该感觉就像与苹果的Siri交谈一样，只是OpenAI希望，通过改进基础技术使其说出更好的答案。目前，大多数虚拟助手，如亚马逊的Alexa，都在以大语言模型（LLM）为基础进行改进。

据OpenAI介绍，新的语音功能由一个新的文本到语音模型提供支持，该模型能够从文本和几秒钟的语音样本生成“类似人类的音频”。OpenAI似乎还认为该模型的潜力不止于此，其正在与流媒体音乐服务平台Spotify合作，将播客翻译成其他语言，同时保持播音者的声音。合成语音有许多有趣的用途，而OpenAI可能会成为该行业的重要组成部分。

然而，只需几秒钟的音频就能构建出功能强大的合成音色，这也为各种问题性用例敞开了大门。“这些功能还带来了新的风险，比如恶意行为者冒充公众人物或实施欺诈的可能性”，OpenAI在其宣布新功能的博文中写道。OpenAI表示，出于这个原因，该模型不会广泛被使用，而更多受到特定用例和合作伙伴的限制。
在图像方面，第一，允许用户上传图像与CHAT GPT进行交互；第二，支持多张图像；第三，提供移动应用上的绘图工具；第四，使用多模态GPT模型（Generative Pre-Trained Transformer，生成式预训练Transformer模型）理解图像；第五，在接下来的两周内首先面向Plus（付费订阅用户）和企业用户推出；第六，语音和图像功能的推出采取渐进策略，以确保安全性；第七，要注意模型局限性，避免高风险场景下对其依赖。

图像搜索有点类似于Google Lens的功能，用户拍摄自己感兴趣的任何东西的照片，CHAT GPT去尝试了解用户在询问什么，并做出相应的回应。用户还可以使用应用程序的绘图工具帮助明晰自己的诉求，或配合图像进行说话或写入问题。

这是CHAT GPT希望实现的一个互动特性：与其进行一次搜索得到错误答案，然后再重新进行一次搜索，不如在进行的过程中提示AI机器人完善答案。
不过，显然图像搜索也有其潜在问题。比如，如果用户询问的是关于一个人的情况，CHAT GPT该如何反应？OpenAI表示，他们故意限制了CHAT GPT“分析和直接陈述关于人的能力”，这既是为了准确性，也是为了隐私原因。这意味着对于AI的一个极具科幻色彩的想象——看着某人然后问AI“那是谁”，并不会很快实现。

在CHAT GPT首次推出将近一年后，OpenAI似乎仍在寻找，如何为其AI机器人增加更多功能和能力而不会产生新的问题和缺点。OpenAI也试图通过有意限制其新模型的功能，来维持“更进一步”和“降低风险”这两者之间的平衡。但这种方法可能不会永远奏效。随着越来越多的人使用语音控制和图像搜索，并且CHAT GPT越来越接近成为一个真正多模式、有用的虚拟助手，维持住这个护栏会变得越来越困难。

ChatGPT现在可以“看”、“听”和“说”了