摘要: CHAT GPT多模态功能开放,用户可以进行语音交互和图像输入与理解,提供CHAT GPT账号申请教程,了解CHAT GPT训练、购买、下载、官网、注册等信息。
太厉害了!就像GPT4.0一样,CHAT GPT会陆续向CHAT GPT Plus用户开放,时间预计在两周内。
Plus用户和企业用户将在接下来的两周内体验到语音和图像功能。我们很高兴将这些功能逐步推广给其他用户群体,包括开发者。
这就是所谓的多模态啊,因为早在几个月前,OpenAI就宣称他们的模型可以接收图像并进行图像理解。
比如以前他们发布的一个demo中,CHAT GPT会觉得手机连接在一起会很有趣。
直到今天,OpenAI才终于宣布要向用户开放这项功能。
这次的更新主要有两点:增加了两个多模态维度,即语音和图像输入。
这意味着CHAT GPT不再只是一个以文本为驱动的工具,它可以看、听、说话。对于用户来说,这将开启全新的可能性,从实时图像分析到语音交流,对于一些特定的用户群体,如视觉障碍者来说,这是一大福音。
两个主要更新的内容:
1 可与CHAT GPT进行语音交互
对于不方便打字或者不熟练打字的人来说,可以直接与CHAT GPT进行语音交流。
虽然之前的CHAT GPT手机应用也可以进行语音输入,但只能输出文字,而现在可以直接进行语音交流,在很多情况下可能更高效,也更有趣,比如可以让它讲个睡前故事。
https://www.zhihu.com/video/1690009760391421952
还有各种音色供你选择。
- 开启方法(在开放之后)
- 进入CHAT GPT移动应用的设置。
- 在设置中选择加入语音对话。
- 在主屏幕右上角找到耳机按钮,选择您喜欢的声音,共有五个选择。
- 语音功能使用新的文本到语音技术,可以从文本和示范语音中生成逼真的声音。
- OpenAI与专业声音演员合作,为每个声音创建了独特的特点。
- CHAT GPT还使用开源语音识别系统Whisper来将您的口头输入转录成文本。
2 图像输入与理解
现在,你可以向CHAT GPT发送多张图像,进行基于图像的对话。这项技术有着广泛的应用,从解决问题到分析工作数据,甚至是计划晚餐,都可以轻松实现。要专注于图像的特定部分,还可以使用移动应用中的绘图工具。这个更新将为我们的数字生活带来更多的便利和创新。
下面是OpenAI的一个案例,你可以看到这种交互是非常有用同时也非常的新颖。
https://www.zhihu.com/video/1690009720952500224
实际上,从这里可以看出,CHAT GPT这类大模型所做的工作就是人工大脑的模拟,基本上就是将人的感官能力赋予给大模型,使其具备看、听、分析的能力。对于CHAT GPT等大模型的使用,对于每个人来说都非常重要,因为它集合了海量的知识和强大的逻辑,可以帮助人们解决许多实际问题。关于如何使用它,我建议大家可以参考知乎知学堂开设的「大模型与人工智能课程」⬇️ ⬇️ ⬇️
这次更新有两个明显的好处:
用户友好性: 这次更新着重于用户友好性。拍照、录音,这些都是用户已经习惯了的操作。这种直观性使得CHAT GPT更容易融入我们的日常生活,比如解决家庭问题、辅助学习或进行创造性的语音交流。
声音合成技术: OpenAI采用了新的文本到语音技术,可以从少量文本和示范语音中生成逼真的人类声音。这不仅提高了交互的沉浸感,还为有声讲述、音频制作等领域带来了新的创造性可能性。
不过最后还有一些顾虑,随着图像输入的增加,安全和道德问题变得更为重要,如何判断哪些图像存在潜在风险,将是一个不小的挑战。