OpenAI发布全新旗舰生成式AI模型GPT-4o：可模拟情感交流！

2024-05-16

5月14日，OpenAI揭晓了其最新力作，并非众人预测的AI搜索引擎或GPT-5，而是GPT-4o，一个标榜“全能”（"omni"）的旗舰模型。此模型已在ChatGPT中集成，且伴随着一系列免费增值特性面世。

GPT-4o的创新之处在于其跨模态的强大功能，尤其是在视觉和音频处理上展现卓越性能。它能够在文本、音频和图像之间无缝推理，接受任何形式的多媒体输入，并输出对应的多样化组合，无论是文本、音频还是图像。其对音频输入的响应时间最快仅需232毫秒，平均响应时间为320毫秒，与人类实际对话节奏相近。

此前，ChatGPT的Voice Mode依赖三款独立模型实现语音交互，但伴随2.8秒（GPT-3.5）至5.4秒（GPT-4）的延迟。这一过程通过转录、处理、再转码完成，不可避免地损失了诸如语调、多重声源或环境音等信息细节，也无法生成如笑声、歌唱或情绪化的语音。GPT-4o的诞生打破了这一瓶颈，它通过一个统一的端到端模型整合文本、视觉和音频处理，首次实现了多模态融合，OpenAI正积极探究这一创新模型的边界。

新推出的语音模式带来革命性体验，据Business Insider透露，它能够与用户流畅对话，模拟情感交流，展现从兴奋到讽刺的丰富情绪，无需唤醒词，超越了如Siri等传统语音助手的使用体验。

OpenAI CEO Sam Altman称赞，这种融合语音和视频的模式是他体验过最接近科幻电影中AI的界面，它以人类级别的反应速度和表达力，让与机器对话变得自然。Altman展望未来，随着个性化定制、信息访问权限以及代理执行等功能的加入，GPT-4o将引领人们以前所未有的方式高效利用计算机。

性能上，GPT-4o在标准测试中展现了与GPT-4 Turbo相当的文本处理、推理及代码理解能力，同时在多语言、音频和视觉处理上取得了突破。它在英语文本和编程任务上的表现匹敌GPT-4 Turbo，且在非英语文本处理上有了显著提升。

安全方面，OpenAI通过过滤训练数据、模型行为优化等技术确保跨模态安全，并开发了针对语音输出的新安全措施。此外，与70多位外部专家跨领域合作，涵盖社会心理学、偏见与公平、虚假信息等领域，以评估并减轻新增模态可能带来的风险，强化用户互动的安全性。

鉴于音频模式潜在的新风险，OpenAI目前仅公开了文本和图像的输入输出功能，并计划在未来数周至数月内，围绕技术基础架构、安全性和其他模式（如音频输出）的发布工作，后者将限定于预设声音且严格遵守安全规范。

目前，ChatGPT用户已可免费体验GPT-4o的文本和图像功能，Plus用户享受五倍的使用配额提升。而升级版Voice Mode，搭载GPT-4o，预计在不久的几周内登陆ChatGPT Plus，为用户带来更加丰富和安全的交互体验。

斯坦福回应抄袭清华系大模型我国大模型研发总体处于跟跑状态

6月16日，润泽园针对各行业的中小企业经营者、董事长开展以“ 穿透客户服务”为主题的润泽公开课。并特邀全国工商联原副主席全国政协参政议政人才库特聘专家庄聪生先生作为分享嘉宾。

点击>> 润泽公开课 即可报名

更多资讯可关注 润泽园官网头条动态

更多动态

更多动态

关于我们
发展历程
核心讲师

联系我们
400-092-6966(9:00-21:00)
sc@runzeyuan.com邮箱地址

了解我们

扫码下载App

快速登录/注册

请输入正确手机号

获取验证码

请输入正确验证码

我同意并愿意遵守《隐私政策》和《服务协议》 请认真阅读并勾选

确定要退出当前账号吗？

您可前往设置用户名称