Ai技术资讯 -

GPT-4o预告中的语音助手“Her”真的很惊艳，但问题是我们还有多久才能够真正上手？网友：PR鬼才奥特曼都坐不住了

By 51ITO
May 20, 2024 - 2 min read

编辑 | 伊风

出品 | 51CTO技术栈（微信号：blog51cto）

OpenAI 发布会中的GPT-4o给所有人都看眼馋了！

谁不想第一时间体验下传说中的“Her”呢？

图片

在发布会上，GPT-4o展示了自己的“magic”：高超的语音理解水平，像人类思考般极为短暂的延时，富有幽默感和同情心的沟通方式，以及对话中途被打断而转入倾听的切换能力。

加上OpenAI在发布会中说，GPT-4o功能将率先推送给Plus用户。更让人觉得付费玩家上手“Her”是件分分钟的事情了！

图片

确实已经有用户被推送了GPT-4o的版本，但当他们迫不及待地使用语音交互功能时才发现，自己的“Her”怎么跟发布会上说好的不一样？

因为——就是不一样。

图片

用户使用的GPT-4o模型中的语音对话功能仍然是外挂的whisper模型来实现的。即需要将用户音频，转为文字后再进行处理。因此当前的语音交互是“回合制”的，用户说完话后要等待处理，不能够随时打断对话。

图片

而发布会中GPT-4o则采用的是同一个神经网络将音频映射到音频的技术，是端到端的生成方式。

毕竟用户界面显示的是“GPT-4o”，期待所提供的语音交互，能像发布会demo中展示的一样神奇也是理所应当。甚至许多测评也直接把旧的通话功能当成GPT-4o去测了！

误会越来越大，这下连PR大师、营销鬼才、阻击谷歌发布会的多面手奥特曼本人也坐不住了。赶紧发了条X文说：“新的（GPT-4o）语音模式还未发布呢！我们发的是 GPT-4o 的文本模式哦！您目前可以在（GPT-4o）应用程序中使用的语音模式是旧版本（非GPT-4o）。

新版本非常值得期待！ ”

图片

单是看翻译都要把人绕糊涂了。相当于GPT-4o真正的王炸功能音频、视频都没有上场，在这个前提下，新版本与GPT-4V的体验几乎没啥区别！

网友在下面纷纷调侃道，不是吧……又像Sora那样耍我们？

1、惊艳的demo，到手的半成品

根据OpenAI官网的说法，OpenAI将在未来几周内推出具有发布会介绍功能的新语音模式 alpha 版，并为 Plus 用户提供早期访问权限。

图片

有意思的是，许多用户测试了“旧的”语音功能后感觉，“延迟短了”、“更有感情了”，恰恰说明人类也是很容易出现幻觉的。

另外，即使是GPT-4o已经提供给plus用户的图片多模态功能，也出现了“货不对板”的质疑。在之前的demo展示中，GPT-4o已经在图片中解决了一致性和字体生成的问题。

图片

今天，OpenAI的联创Greg Brockman在X上晒出了GPT-4o生成的第一张图片。GPT-4o给了照片级别的答卷，一个穿着OpenAI logoT恤的男人背身站在黑板前，正在进行板书，而板书上的内容清晰可见:"模态之间的传输"。假设我们直接用一个大的自回归变压器对 P（文本、像素、声音）建模。利弊如何？"

图片

从上图来看，新方法比 OpenAI 于 2023 年 9 月推出的上一个图像生成模型 DALL-E 3 有了明显的改进。在 ChatGPT 中通过 DALL-E 3 运行了类似的提示，结果如下。

图片

布洛克曼分享的使用 GPT-4o 创建的图像在质量、逼真度和文本生成的准确性方面都有显著提高。

不过，评论区有网友感到疑惑：“我们用的是同一个GPT-4o吗？”

图片

乍一看这张图片还算逼真，能看出网友本想生成一个Greg Brockman在浏览X的图片。放大看看发现屏幕上的文字犹如天书，GPT-4o在生成正确的文字方面没坚持了多久就开始了“鬼画符”。即使网友尝试了多轮提示词也仍然如此。

二、半成品的世界，谷歌输在哪了？

今早，奥特曼突然公开发文讽刺谷歌审美不行。

图片

他发布了OpenAI和Google发布新产品的现场，并配文“我尝试不去多想我们的竞争对手，但我忍不住去想我们两者间巨大的审美差距”。

不过，虽然奥特曼嘴上说着不想考虑竞争对手，但却偏偏将新品发布挪到了谷歌的前一天。

虽然谷歌的CEO在I/O大会前接受彭博社的采访中说，他不认为自己是一位因循守旧的领导者，他在上任初期就宣布未来的谷歌将以AI为导向，这在那时是非常激进的举措。

但从谷歌所发布的产品来看，他们的确在做优化和防守的相关工作。

英伟达科学家Jim Fan说，谷歌做的最正确的一件事，就是开始将人工智能认真地融入自家的搜索框了。

图片

有人在谷歌的X文下尖刻的评论道，“OpenAI所展示的东西正在送货。然而你们的舞台上却只有一个小丑”。

图片

另一个人则回复道，“公平点吧！OpenAI用户界面也没发布他们的新功能啊，就算是充值用户，不还是DALL-E 3、TTS那一套吗？”不过他又话锋一转的说，“不过我觉得他们发货还是会比谷歌的Astra”更快的。

图片

三、写在最后

在当今的科技领域，人工智能（AI）无疑是最具变革性的、最为人所关注的技术之一。

然而，随着AI技术的快速发展，我们也目睹了一种令人担忧的趋势：从模型到软件再到硬件，整个AI领域似乎都陷入了一种“半成品炒作”的模式。这种模式不仅消耗了公众的耐心，也对行业的健康发展构成了威胁。

AI技术的炒作现象，从Sora、human的AI PIN到最近备受争议的rabbit，已经引起了广泛的不满。科技公司本可以等待一切进入ready状态后，再向用户发布他们的产品。而如今却越来越加速，用户买到手中的半成品可以运行的功能有时少得可怜。

公众对于“fake it until you make it”的策略感到厌烦，他们渴望的是实实在在的技术进步和开箱即用的体验。

这种炒作不仅掩盖了AI技术发展的真实状况，也可能导致对AI潜力的过度乐观预期。

分析专家认为，AI技术的增速放缓，部分原因在于技术瓶颈和安全问题的挑战。以GPT-5为例，尽管市场对其充满期待，但其迟迟未能面世，可能是因为研发过程中遇到了难以克服的技术障碍。

与此同时，硬件供应的变化也反映了AI发展的现状。根据硅谷科技博主的爆料，几个月前供不应求的高性能GPU，而现在无需预订就可以完成购买。随着芯片公司的竞争加剧，英伟达一家独大的局面可能会被打破，市场供应开始趋于稳定。

尽管如此，AI领域的创新其实并未停滞。OpenAI的GPT-4o模型，尽管尚未完全实现其承诺，但其潜在的影响力已经足以让科技界充满期待。26分钟的发布会也许足以改变人类在以后26年的工作和生活方式。

但是，我们真正想要的良性发展，是AI科技能够摆脱炒作的阴影，以更加稳健的步伐，为人类社会带来真正的有益的变革和安全的进步。

参考链接：

1.https://simonwillison.net/2024/May/15/chatgpt-in-4o-mode/

2.https://twitter.com/howie_serious/status/1790890586486267970

想了解更多AIGC的内容，请访问：

51CTO AI.x社区

https://www.51cto.com/aigc/