媒体:GPT-4o更新 AI又来“炸场” 全能交互新时代-北极星网

媒体:GPT-4o更新 AI又来“炸场” 全能交互新时代

在5月14日的凌晨,OpenAI举办了一场名为“春季更新”的线上活动,期间揭晓了他们的新旗舰生成式AI模型——GPT-4o。这个模型名称中的“o”蕴含深意,取自英文“Omni”,寓意着“全能”或“涵盖一切”,体现了技术的广度与深度。

媒体:GPT-4o更新 AI又来“炸场” 全能交互新时代

GPT-4o的一大亮点在于它对语音交互的细腻捕捉。它不仅能够无缝融入或中断对话,还能精妙识别发言者的情绪与语气,根据不同的场景或命令,生成多样化的音调回复,这些回复富含人性化的感情色彩,甚至能应用户要求演唱歌曲。

视觉处理能力上,GPT-4o实现了显著飞跃。当前,它已能够辨认并翻译多种语言的菜单图片,未来展望中,这项技术或将使ChatGPT具备“观赏”实况体育赛事并解析规则的能力。此外,GPT-4o在图像处理上更进一步,不仅限于识别印刷文字,对手写体同样驾轻就熟,能解决数学方程、分析数据,并解读面部表情背后的情感。

语言处理能力方面,GPT-4o展现了其强大的多语言支持,目前可与用户通过20种语言进行音频等形式的互动,最新升级极大地增强了其多语言服务,涉及的语言种类扩展至约50种。

数据处理与性能方面,GPT-4o对比前代GPT-4Turbo及其他竞争模型,展现出显著的优势,传统基准测试结果证明了其卓越性能。

情感智能也是GPT-4o的一大突破。在演示中,当用户表达紧张情绪时,GPT-4o以类似朋友的口吻进行安慰,并引导用户进行深呼吸放松,实时分析呼吸声以给出恰当建议,实现了交互体验的情感共鸣。

响应速度方面,GPT-4o的提升令人瞩目,最快可在232毫秒内反馈对话,平均响应时间仅320毫秒,几近人类自然交流的速度,极大提升了与ChatGPT交流的流畅度,较GPT-3.5有质的飞跃。

值得注意的是,GPT-4o在一定范围内提供了免费使用的机会。它在英语及编程领域的表现与GPT-4Turbo持平,非英语文本处理能力显著增强,同时,API速度加快,速率限制放宽五倍,成本却降低了50%,践行了OpenAI让更多人免费体验高端AI技术的愿景。

OpenAI的高层对GPT-4o寄予厚望,认为它是通向更自然人机交互的重要一步,展示了多模态交互的更高境界,彰显了OpenAI在这一领域的前沿地位和技术领导力。