ChatGPT多模态功能开放，语音和图像交互，提供CHATGPT账号申请教程

热门头条1年前 (2023)更新沈浪@葫芦娃AI

9.2K 0 0

摘要: CHAT GPT多模态功能开放，用户可以进行语音交互和图像输入与理解，提供CHAT GPT账号申请教程，了解CHAT GPT训练、购买、下载、官网、注册等信息。

太厉害了！就像GPT4.0一样，CHAT GPT会陆续向CHAT GPT Plus用户开放，时间预计在两周内。

Plus用户和企业用户将在接下来的两周内体验到语音和图像功能。我们很高兴将这些功能逐步推广给其他用户群体，包括开发者。

这就是所谓的多模态啊，因为早在几个月前，OpenAI就宣称他们的模型可以接收图像并进行图像理解。

比如以前他们发布的一个demo中，CHAT GPT会觉得手机连接在一起会很有趣。

直到今天，OpenAI才终于宣布要向用户开放这项功能。

这次的更新主要有两点：增加了两个多模态维度，即语音和图像输入。

这意味着CHAT GPT不再只是一个以文本为驱动的工具，它可以看、听、说话。对于用户来说，这将开启全新的可能性，从实时图像分析到语音交流，对于一些特定的用户群体，如视觉障碍者来说，这是一大福音。

两个主要更新的内容：

1 可与CHAT GPT进行语音交互

对于不方便打字或者不熟练打字的人来说，可以直接与CHAT GPT进行语音交流。

虽然之前的CHAT GPT手机应用也可以进行语音输入，但只能输出文字，而现在可以直接进行语音交流，在很多情况下可能更高效，也更有趣，比如可以让它讲个睡前故事。

https://www.zhihu.com/video/1690009760391421952

还有各种音色供你选择。

开启方法（在开放之后）

进入CHAT GPT移动应用的设置。
在设置中选择加入语音对话。
在主屏幕右上角找到耳机按钮，选择您喜欢的声音，共有五个选择。
语音功能使用新的文本到语音技术，可以从文本和示范语音中生成逼真的声音。
OpenAI与专业声音演员合作，为每个声音创建了独特的特点。
CHAT GPT还使用开源语音识别系统Whisper来将您的口头输入转录成文本。

2 图像输入与理解

现在，你可以向CHAT GPT发送多张图像，进行基于图像的对话。这项技术有着广泛的应用，从解决问题到分析工作数据，甚至是计划晚餐，都可以轻松实现。要专注于图像的特定部分，还可以使用移动应用中的绘图工具。这个更新将为我们的数字生活带来更多的便利和创新。

下面是OpenAI的一个案例，你可以看到这种交互是非常有用同时也非常的新颖。

https://www.zhihu.com/video/1690009720952500224

实际上，从这里可以看出，CHAT GPT这类大模型所做的工作就是人工大脑的模拟，基本上就是将人的感官能力赋予给大模型，使其具备看、听、分析的能力。对于CHAT GPT等大模型的使用，对于每个人来说都非常重要，因为它集合了海量的知识和强大的逻辑，可以帮助人们解决许多实际问题。关于如何使用它，我建议大家可以参考知乎知学堂开设的「大模型与人工智能课程」⬇️ ⬇️ ⬇️

这次更新有两个明显的好处：

用户友好性： 这次更新着重于用户友好性。拍照、录音，这些都是用户已经习惯了的操作。这种直观性使得CHAT GPT更容易融入我们的日常生活，比如解决家庭问题、辅助学习或进行创造性的语音交流。

声音合成技术： OpenAI采用了新的文本到语音技术，可以从少量文本和示范语音中生成逼真的人类声音。这不仅提高了交互的沉浸感，还为有声讲述、音频制作等领域带来了新的创造性可能性。

不过最后还有一些顾虑，随着图像输入的增加，安全和道德问题变得更为重要，如何判断哪些图像存在潜在风险，将是一个不小的挑战。