ChatGPT 现在可以看到、听到和说话 —— GPT-4 多模态版本上线

OpenAI 开始在 ChatGPT 中推出新的语音和图像功能,允许您进行语音对话或向 ChatGPT 展示画面。Plus 和企业用户将在未来两周内体验语音和图像,不久后推出给其他用户组,包括开发人员。

图像理解由多模态 GPT-3.5 和 GPT-4 提供支持,你现在可以向 ChatGPT 展示一个或多个图像。这些模型可以将其语言推理技能应用于各种图像,例如照片、屏幕截图以及包含文本和图像的文档。

文本转语音由新的模型提供支持,它能够从几秒钟的真实语音中制作出逼真的合成语音。ChatGPT 的预设语音来自直接合作的专业配音演员。语音转文本由 OpenAI Whisper 模型支持。

—— OpenAI

via 风向旗参考快讯 - Telegram Channel
 
 
Back to Top