杀疯了!震惊世界!一夜改变历史!在OpenAI推出有史以来最强大的模型GPT-4o后,这是它收获的不少赞誉。
反观谷歌今日凌晨发布的AI全家桶,外界似乎保持了“克制”,关注点纷纷落在谷歌如何反击OpenAI。“什么都有,但没有惊喜”,有评价称。
OpenAI似乎再次验证了“less is more”的法则,每次用单一产品就吸引到爆炸性的关注,ChatGPT、Sora、GPT-4o莫不如此。
这也意味着,以大模型为核心的AI技术仍在持续迭代,竞争依然激烈。只不过,技术演化的速度可能正在放缓。
复旦大学计算机科学技术学院教授、MOSS大模型核心人员张奇对搜狐科技表示,从整个原理上和架构上来说,GPT-4o没有特别大的突破,多模态的融合也是在预料之中,并没有超出预期。
同时他认为,这进一步验证了大模型技术迭代曲线正在放缓的趋势,无论是OpenAI,还是谷歌,推出的多模态融合模型在推理能力上都没有本质突破。
业内还有不少人都泼了盆冷水。“本来以来是核弹,却掏出了一堆摔炮。”猎豹移动董事长傅盛表示,GPT-5可能面临难产。
当然,不可否认GPT-4o在人机交互做出的革新。出门问问创始人李志飞就评价到,GPT-4o将成为万能的虚拟个人助理,人机交互将开启新一波革命。(GPT-4o在视觉和音频理解方面表现得较为突出。OpenAI官方介绍称,GPT-4o中的“o”指代“omni”,而“omni”在英语词缀中指代“总、全部、所有”,意为“全能”的意思。)
但面对谷歌的全面“复仇”,OpenAI可能还需要拿出GPT-5等终极武器来应对,而国内的差距似乎又一次拉大了。
超过Siri等对话助手,推理能力无本质突破
在张奇看来,GPT-4o最重要的突破之一是多模态融合架构。他判断,这个架构采用了流式的语音和视频输入,在流式输入之后能够快速输出,使得整体响应延迟非常小,这是个很大的工程难题。
OpenAI首席技术官米拉·穆拉蒂 (Mira Murati)就表示,在API使用方面,相比去年11月发布的GPT-4-turbo,GPT-4o价格降低一半(50%),而速度提升两倍。
这其中效果最为明显的则是对音频的处理,GPT-4o可以在短至232毫秒的时间内响应音频输入,平均为320毫秒,与人类的响应时间相似,远超此前ChatGPT语音模式对话的平均延迟时间(GPT-3.5为2.8秒,GPT-4为5.4秒)。
这背后的核心在于OpenAI跨文本、视觉和音频端到端地训练了一个新模型,使得所有输入和输出都由同一神经网络处理,从而大幅提高了响应速度,从而实现实时交互。
张奇介绍到,原来基于ChatGPT做语音交互,需先用语音识别转成文本(ASR),文本再给到模型,模型输出完结果后仍是文本,然后要把文本再转成语音(TTS)。“相当于至少有三个模型参与拼接在一起,中间不能流畅地串起来。”
端到端则省去了中间过程,在一个模型中直接输入语音信号,内置完成语音识别、语义回答,最后直接输出音频信号。这种端到端模式也已是自动驾驶的主流,用于提升从感知到决策的一体化效率。
谷歌此次发布的对标GPT-4o的Project Astra同样是多模态融合,从演示来看,其视觉识别和语音交互效果,跟GPT-4o不相上下。
“从架构上来说,Siri肯定不是端到端,使用的还是上一代的对话系统,比现在的ChatGPT的效果要差。所以从这种角度上来说,GPT-4o和谷歌最新的产品确实超越之前的对话系统。”张奇认为。
不过,他认为,从整个原理和架构上来说,GPT-4o并没有特别大的突破,整体升级不大。“从去年八九月份开始,就已经出现各种融合模型,多模态融合也被认为是大模型的发展趋势,因此GPT-4o并没有超出预期。”
张奇认为,GPT-4o和Project Astra的技术点差不多,都是多模态的混合模型,但依然都还不具备真正的推理能力,本质上并无突破。“用统一大模型去做,我觉得比较难。”
在张奇看来,AGI最核心的能力就是推理。尽管GPT-4o能够识别用户的语气、表情等,并可以调整说话语气和声音,但张奇表示,这本质还是统计机器学习的概率问题,通过数据训练就可以达到,并不能实现真正的推理。
“从它所有的demo展示来看,推理能力相较一年前发布的GPT-4并没有大幅度提升。如果真正能够完成一些推理,我觉得它应该会有更多的角度可以展示。”张奇表示。
李志飞也提到,GPT-4o的演示本身没有新的idea,过去十年很多人做过demo,但体验都是半吊子,demo很酷、用起来反人类,“本人做了十年,都已经绝望了”。
在GPT-4o发布后,很多观点都认为,类似电影《Her》或《流浪地球》中的MOSS的科幻场景正在加速实现。
“我觉得并没有大幅度推进这个过程,我更多看到了从数据出发的瓶颈,突破起来还是非常慢。”张奇说,这种demo很容易使得AI被过度宣传,然后过度解读。
技术迭代速度放缓,国内差距再次拉大
去年3月,OpenAI推出多模态大模型GPT-4,理解能力、可靠性和长文本技术能力全面增强,且具备图像处理。时隔一年推出的GPT-4o,在多项测试中达到或超过GPT-4 Turbo。
这背后恐怕也是不菲的投入,OpenAI官网上列出的GPT-4o相关贡献人员约有200人。“不断尝试不同的模型和各种融合方案,算力可能需要万卡集群,还有语音和图像等标注费用,整体投入可能需要10亿-15亿美金这种量级。”张奇判断。
他认为,这其中主要的难点在于多模态融合,包括每个模态如何进入到整体框架,融合之后还要调任务、做强化学习等,更多都是偏工程层面的工作,而且往往不会一次性成功,所以需要花费非常大的代价。
尽管投入很大,但张奇认为,GPT-4o在一定程度上验证了大模型技术迭代曲线正在放缓的趋势。金沙江创投主管合伙人朱啸虎对此持相同观点。
因此,张奇表示,GPT-5未来升级瓶颈会非常大,Sora等视频生成可能很难融入。“基于数据驱动的模式,把这些模态都融合在一起可能就到头了,后面可能就是小的升级。”
傅盛同样认为,如果不计成本的累参数,提高所谓的大模型能力,这条路肯定容易遇到困难,目前看起来GPT-5可能还要难产一段时间。
不过,在此次发布会前夕,OpenAICEO奥特曼在采访中透露,OpenAI计划在今年夏天推出更先进的GPT-5模型,并可能采用与以往不同的发布策略,但具体时间并未透露。
奥特曼认为,未来的AI发展不应是一场数据和算力的军备竞赛,真正的突破需要在算法效率、芯片性能、能源供给等方面取得根本性进展,而OpenAI期待在算法上实现重大创新,从而提高模型的运行效率。
但OpenAI可能需要优先解决当下的危机,其已面临一定的流量焦虑,在此前放开ChatGPT的账号限制后,此次则决定GPT-4o向用户免费开放。
朱啸虎认为,OpenAI开始卷免费,说明GPT的用户和收入增长已经碰到瓶颈,不是深度绑定大厂的模型公司基本已经出局。
对此,张奇也表示认同,OpenAI是想通过免费方式占领市场,如果增长放缓,就可能对未来的融资会有很大影响。
自去年下半年以来,ChatGPT的流量增长就趋于放缓,尚未恢复到去年5月时的高峰。更关键的是,从今年以来,OpenAI正在受到越来越多的挑战,包括谷歌、Meta,以及AI独角兽Anthropic、Mistral等都推出了越来越强大的模型。
对谷歌来说,搜索是其核心领地,而此前就有爆料称OpenAI将会推出AI搜索,那么这对谷歌来说将是巨大的威胁,这也是谷歌自去年以来不断追赶OpenAI的核心原因。
张奇认为,在美国市场,从文本和图像来看,OpenAI和其它竞争对手的差距已经不大。“谷歌现在跟OpenAI的距离应该很接近,至少在产品层面差不多了。”
对国内而言,OpenAI和谷歌最新的技术发布,意味着差距进一步扩大。“从整体来看,肯定差距又在拉大,而且是在多模态融合模型方面,流式的输入推理,国内至少现在没有看到,追肯定也是现在起步。”张奇说。
傅盛表示,OpenAI此次发布说明了应用在AI领域大有可为,每一个创业者都应该去好好地做AI应用,大模型的能力当然会不断地迭代,但最终能够把大模型用好的还是应用。
“GPT-4o让我对大模型真正渗透到生活的方方面面重新产生了信心。”李志飞也表示,它有望让人机交互这个“渣男”重新做人,开启下一波的科技、应用和商业模式的革命。
奥特曼在早前采访中提到,未来的AI设备应该始终在线、无缝连接,能够通过语音或文本等自然交互方式准确理解用户需求,并提供个性化的智能服务。显然,GPT-4o承载了OpenAI意图革新人机界面的目标。
不过,在张奇看来,目前大模型的通用性没那么强,目前单纯依赖于大模型的刚需很少,同时针对特定场景开发的成本非常高,导致目前大模型落地很难。
随着世界最先进的大模型们不断迭代,大模型落地的路径和节奏会被加快吗?至少现在来看,还需要等待。