GPT-4o预告中的语音助手“Her”真的很惊艳,但问题是我们还有多久才能够真正上手?网友:PR鬼才奥特曼都坐不住了
编辑 | 伊风
出品 | 51CTO技术栈(微信号:blog51cto)
OpenAI 发布会中的GPT-4o给所有人都看眼馋了!
谁不想第一时间体验下传说中的“Her”呢?
图片
在发布会上,GPT-4o展示了自己的“magic”:高超的语音理解水平,像人类思考般极为短暂的延时,富有幽默感和同情心的沟通方式,以及对话中途被打断而转入倾听的切换能力。
加上OpenAI在发布会中说,GPT-4o功能将率先推送给Plus用户。更让人觉得付费玩家上手“Her”是件分分钟的事情了!
图片
确实已经有用户被推送了GPT-4o的版本,但当他们迫不及待地使用语音交互功能时才发现,自己的“Her”怎么跟发布会上说好的不一样?
因为——就是不一样。
图片
用户使用的GPT-4o模型中的语音对话功能仍然是外挂的whisper模型来实现的。即需要将用户音频,转为文字后再进行处理。因此当前的语音交互是“回合制”的,用户说完话后要等待处理,不能够随时打断对话。
图片
而发布会中GPT-4o则采用的是同一个神经网络将音频映射到音频的技术,是端到端的生成方式。
毕竟用户界面显示的是“GPT-4o”,期待所提供的语音交互,能像发布会demo中展示的一样神奇也是理所应当。甚至许多测评也直接把旧的通话功能当成GPT-4o去测了!
误会越来越大,这下连PR大师、营销鬼才、阻击谷歌发布会的多面手奥特曼本人也坐不住了。赶紧发了条X文说:“新的(GPT-4o)语音模式还未发布呢!我们发的是 GPT-4o 的文本模式哦!您目前可以在(GPT-4o)应用程序中使用的语音模式是旧版本(非GPT-4o)。
新版本非常值得期待! ”
图片
单是看翻译都要把人绕糊涂了。相当于GPT-4o真正的王炸功能音频、视频都没有上场,在这个前提下,新版本与GPT-4V的体验几乎没啥区别!
网友在下面纷纷调侃道,不是吧……又像Sora那样耍我们?
1、惊艳的demo,到手的半成品
根据OpenAI官网的说法,OpenAI将在未来几周内推出具有发布会介绍功能的新语音模式 alpha 版,并为 Plus 用户提供早期访问权限。
图片
有意思的是,许多用户测试了“旧的”语音功能后感觉,“延迟短了”、“更有感情了”,恰恰说明人类也是很容易出现幻觉的。
另外,即使是GPT-4o已经提供给plus用户的图片多模态功能,也出现了“货不对板”的质疑。在之前的demo展示中,GPT-4o已经在图片中解决了一致性和字体生成的问题。
图片
今天,OpenAI的联创Greg Brockman在X上晒出了GPT-4o生成的第一张图片。GPT-4o给了照片级别的答卷,一个穿着OpenAI logoT恤的男人背身站在黑板前,正在进行板书,而板书上的内容清晰可见:"模态之间的传输"。假设我们直接用一个大的自回归变压器对 P(文本、像素、声音)建模。利弊如何?"
图片
从上图来看,新方法比 OpenAI 于 2023 年 9 月推出的上一个图像生成模型 DALL-E 3 有了明显的改进。在 ChatGPT 中通过 DALL-E 3 运行了类似的提示,结果如下。
图片
布洛克曼分享的使用 GPT-4o 创建的图像在质量、逼真度和文本生成的准确性方面都有显著提高。
不过,评论区有网友感到疑惑:“我们用的是同一个GPT-4o吗?”
图片
乍一看这张图片还算逼真,能看出网友本想生成一个Greg Brockman在浏览X的图片。放大看看发现屏幕上的文字犹如天书,GPT-4o在生成正确的文字方面没坚持了多久就开始了“鬼画符”。即使网友尝试了多轮提示词也仍然如此。
二、半成品的世界,谷歌输在哪了?
今早,奥特曼突然公开发文讽刺谷歌审美不行。
图片
他发布了OpenAI和Google发布新产品的现场,并配文“我尝试不去多想我们的竞争对手,但我忍不住去想我们两者间巨大的审美差距”。
不过,虽然奥特曼嘴上说着不想考虑竞争对手,但却偏偏将新品发布挪到了谷歌的前一天。
虽然谷歌的CEO在I/O大会前接受彭博社的采访中说,他不认为自己是一位因循守旧的领导者,他在上任初期就宣布未来的谷歌将以AI为导向,这在那时是非常激进的举措。
但从谷歌所发布的产品来看,他们的确在做优化和防守的相关工作。
英伟达科学家Jim Fan说,谷歌做的最正确的一件事,就是开始将人工智能认真地融入自家的搜索框了。
图片
有人在谷歌的X文下尖刻的评论道,“OpenAI所展示的东西正在送货。然而你们的舞台上却只有一个小丑”。
图片
另一个人则回复道,“公平点吧!OpenAI用户界面也没发布他们的新功能啊,就算是充值用户,不还是DALL-E 3、TTS那一套吗?”不过他又话锋一转的说,“不过我觉得他们发货还是会比谷歌的Astra”更快的。
图片
三、写在最后
在当今的科技领域,人工智能(AI)无疑是最具变革性的、最为人所关注的技术之一。
然而,随着AI技术的快速发展,我们也目睹了一种令人担忧的趋势:从模型到软件再到硬件,整个AI领域似乎都陷入了一种“半成品炒作”的模式。这种模式不仅消耗了公众的耐心,也对行业的健康发展构成了威胁。
AI技术的炒作现象,从Sora、human的AI PIN到最近备受争议的rabbit,已经引起了广泛的不满。科技公司本可以等待一切进入ready状态后,再向用户发布他们的产品。而如今却越来越加速,用户买到手中的半成品可以运行的功能有时少得可怜。
公众对于“fake it until you make it”的策略感到厌烦,他们渴望的是实实在在的技术进步和开箱即用的体验。
这种炒作不仅掩盖了AI技术发展的真实状况,也可能导致对AI潜力的过度乐观预期。
分析专家认为,AI技术的增速放缓,部分原因在于技术瓶颈和安全问题的挑战。以GPT-5为例,尽管市场对其充满期待,但其迟迟未能面世,可能是因为研发过程中遇到了难以克服的技术障碍。
与此同时,硬件供应的变化也反映了AI发展的现状。根据硅谷科技博主的爆料,几个月前供不应求的高性能GPU,而现在无需预订就可以完成购买。随着芯片公司的竞争加剧,英伟达一家独大的局面可能会被打破,市场供应开始趋于稳定。
尽管如此,AI领域的创新其实并未停滞。OpenAI的GPT-4o模型,尽管尚未完全实现其承诺,但其潜在的影响力已经足以让科技界充满期待。26分钟的发布会也许足以改变人类在以后26年的工作和生活方式。
但是,我们真正想要的良性发展,是AI科技能够摆脱炒作的阴影,以更加稳健的步伐,为人类社会带来真正的有益的变革和安全的进步。
参考链接:
1.https://simonwillison.net/2024/May/15/chatgpt-in-4o-mode/
2.https://twitter.com/howie_serious/status/1790890586486267970