}) }

OpenAI发布全新旗舰生成式AI模型GPT-4o:可模拟情感交流!

  2024-05-16


5月14日,OpenAI揭晓了其最新力作,并非众人预测的AI搜索引擎或GPT-5,而是GPT-4o,一个标榜“全能”("omni")的旗舰模型。此模型已在ChatGPT中集成,且伴随着一系列免费增值特性面世。

GPT-4o的创新之处在于其跨模态的强大功能,尤其是在视觉和音频处理上展现卓越性能。它能够在文本、音频和图像之间无缝推理,接受任何形式的多媒体输入,并输出对应的多样化组合,无论是文本、音频还是图像。其对音频输入的响应时间最快仅需232毫秒,平均响应时间为320毫秒,与人类实际对话节奏相近。

此前,ChatGPT的Voice Mode依赖三款独立模型实现语音交互,但伴随2.8秒(GPT-3.5)至5.4秒(GPT-4)的延迟。这一过程通过转录、处理、再转码完成,不可避免地损失了诸如语调、多重声源或环境音等信息细节,也无法生成如笑声、歌唱或情绪化的语音。GPT-4o的诞生打破了这一瓶颈,它通过一个统一的端到端模型整合文本、视觉和音频处理,首次实现了多模态融合,OpenAI正积极探究这一创新模型的边界。


640.jpg


新推出的语音模式带来革命性体验,据Business Insider透露,它能够与用户流畅对话,模拟情感交流,展现从兴奋到讽刺的丰富情绪,无需唤醒词,超越了如Siri等传统语音助手的使用体验。

OpenAI CEO Sam Altman称赞,这种融合语音和视频的模式是他体验过最接近科幻电影中AI的界面,它以人类级别的反应速度和表达力,让与机器对话变得自然。Altman展望未来,随着个性化定制、信息访问权限以及代理执行等功能的加入,GPT-4o将引领人们以前所未有的方式高效利用计算机。

性能上,GPT-4o在标准测试中展现了与GPT-4 Turbo相当的文本处理、推理及代码理解能力,同时在多语言、音频和视觉处理上取得了突破。它在英语文本和编程任务上的表现匹敌GPT-4 Turbo,且在非英语文本处理上有了显著提升。

安全方面,OpenAI通过过滤训练数据、模型行为优化等技术确保跨模态安全,并开发了针对语音输出的新安全措施。此外,与70多位外部专家跨领域合作,涵盖社会心理学、偏见与公平、虚假信息等领域,以评估并减轻新增模态可能带来的风险,强化用户互动的安全性。

鉴于音频模式潜在的新风险,OpenAI目前仅公开了文本和图像的输入输出功能,并计划在未来数周至数月内,围绕技术基础架构、安全性和其他模式(如音频输出)的发布工作,后者将限定于预设声音且严格遵守安全规范。

目前,ChatGPT用户已可免费体验GPT-4o的文本和图像功能,Plus用户享受五倍的使用配额提升。而升级版Voice Mode,搭载GPT-4o,预计在不久的几周内登陆ChatGPT Plus,为用户带来更加丰富和安全的交互体验。


斯坦福回应抄袭清华系大模型 我国大模型研发总体处于跟跑状态


6月16日,润泽园针对各行业的中小企业经营者、董事长开展以“ 穿透客户服务”为主题的润泽公开课。并特邀 全国工商联原副主席 全国政协参政议政人才库特聘专家 庄聪生先生 作为分享嘉宾。

点击>> 润泽公开课 即可报名


更多动态
关闭

快速登录/注册

请输入正确手机号
获取验证码
请输入正确验证码
我同意并愿意遵守《隐私政策》《服务协议》 请认真阅读并勾选
确定要退出当前账号吗?
您可前往设置用户名称