您的位置:首页 >> 资讯动态 >> 科技互联 >> 内容

复旦教授张奇评谷歌、OpenAI新模型:推理能力没有本质突破,国内差距再拉大

作者:梁昌均 时间:2024-5-15 21:28:19 点击:
字号

  核心提示:杀疯了!震惊世界!一夜改变历史!在OpenAI推出有史以来最强大的模型GPT-4o后,这是它收获的不少赞誉。反观谷歌今日凌晨发布的AI全家桶,外界似乎保持了“克制”,关注点纷纷落在谷歌如何反击OpenAI。“什么都有,但没有惊喜”,有评价称。...

杀疯了!震惊世界!一夜改变历史!在OpenAI推出有史以来最强大的模型GPT-4o后,这是它收获的不少赞誉。

反观谷歌今日凌晨发布的AI全家桶,外界似乎保持了“克制”,关注点纷纷落在谷歌如何反击OpenAI。“什么都有,但没有惊喜”,有评价称。

OpenAI似乎再次验证了“less is more”的法则,每次用单一产品就吸引到爆炸性的关注,ChatGPT、Sora、GPT-4o莫不如此。

这也意味着,以大模型为核心的AI技术仍在持续迭代,竞争依然激烈。只不过,技术演化的速度可能正在放缓。

复旦大学计算机科学技术学院教授、MOSS大模型核心人员张奇对搜狐科技表示,从整个原理上和架构上来说,GPT-4o没有特别大的突破,多模态的融合也是在预料之中,并没有超出预期。

同时他认为,这进一步验证了大模型技术迭代曲线正在放缓的趋势,无论是OpenAI,还是谷歌,推出的多模态融合模型在推理能力上都没有本质突破。

业内还有不少人都泼了盆冷水。“本来以来是核弹,却掏出了一堆摔炮。”猎豹移动董事长傅盛表示,GPT-5可能面临难产。

复旦教授张奇评谷歌、OpenAI新模型:推理能力没有本质突破,国内差距再拉大

当然,不可否认GPT-4o在人机交互做出的革新。出门问问创始人李志飞就评价到,GPT-4o将成为万能的虚拟个人助理,人机交互将开启新一波革命。(GPT-4o在视觉和音频理解方面表现得较为突出。OpenAI官方介绍称,GPT-4o中的“o”指代“omni”,而“omni”在英语词缀中指代“总、全部、所有”,意为“全能”的意思。)

但面对谷歌的全面“复仇”,OpenAI可能还需要拿出GPT-5等终极武器来应对,而国内的差距似乎又一次拉大了。

超过Siri等对话助手,推理能力无本质突破

在张奇看来,GPT-4o最重要的突破之一是多模态融合架构。他判断,这个架构采用了流式的语音和视频输入,在流式输入之后能够快速输出,使得整体响应延迟非常小,这是个很大的工程难题。

OpenAI首席技术官米拉·穆拉蒂 (Mira Murati)就表示,在API使用方面,相比去年11月发布的GPT-4-turbo,GPT-4o价格降低一半(50%),而速度提升两倍。

这其中效果最为明显的则是对音频的处理,GPT-4o可以在短至232毫秒的时间内响应音频输入,平均为320毫秒,与人类的响应时间相似,远超此前ChatGPT语音模式对话的平均延迟时间(GPT-3.5为2.8秒,GPT-4为5.4秒)。

这背后的核心在于OpenAI跨文本、视觉和音频端到端地训练了一个新模型,使得所有输入和输出都由同一神经网络处理,从而大幅提高了响应速度,从而实现实时交互。

张奇介绍到,原来基于ChatGPT做语音交互,需先用语音识别转成文本(ASR),文本再给到模型,模型输出完结果后仍是文本,然后要把文本再转成语音(TTS)。“相当于至少有三个模型参与拼接在一起,中间不能流畅地串起来。”

端到端则省去了中间过程,在一个模型中直接输入语音信号,内置完成语音识别、语义回答,最后直接输出音频信号。这种端到端模式也已是自动驾驶的主流,用于提升从感知到决策的一体化效率。

谷歌此次发布的对标GPT-4o的Project Astra同样是多模态融合,从演示来看,其视觉识别和语音交互效果,跟GPT-4o不相上下。

“从架构上来说,Siri肯定不是端到端,使用的还是上一代的对话系统,比现在的ChatGPT的效果要差。所以从这种角度上来说,GPT-4o和谷歌最新的产品确实超越之前的对话系统。”张奇认为。

不过,他认为,从整个原理和架构上来说,GPT-4o并没有特别大的突破,整体升级不大。“从去年八九月份开始,就已经出现各种融合模型,多模态融合也被认为是大模型的发展趋势,因此GPT-4o并没有超出预期。”

张奇认为,GPT-4o和Project Astra的技术点差不多,都是多模态的混合模型,但依然都还不具备真正的推理能力,本质上并无突破。“用统一大模型去做,我觉得比较难。”

在张奇看来,AGI最核心的能力就是推理。尽管GPT-4o能够识别用户的语气、表情等,并可以调整说话语气和声音,但张奇表示,这本质还是统计机器学习的概率问题,通过数据训练就可以达到,并不能实现真正的推理。

“从它所有的demo展示来看,推理能力相较一年前发布的GPT-4并没有大幅度提升。如果真正能够完成一些推理,我觉得它应该会有更多的角度可以展示。”张奇表示。

李志飞也提到,GPT-4o的演示本身没有新的idea,过去十年很多人做过demo,但体验都是半吊子,demo很酷、用起来反人类,“本人做了十年,都已经绝望了”。

在GPT-4o发布后,很多观点都认为,类似电影《Her》或《流浪地球》中的MOSS的科幻场景正在加速实现。

“我觉得并没有大幅度推进这个过程,我更多看到了从数据出发的瓶颈,突破起来还是非常慢。”张奇说,这种demo很容易使得AI被过度宣传,然后过度解读。

技术迭代速度放缓,国内差距再次拉大

去年3月,OpenAI推出多模态大模型GPT-4,理解能力、可靠性和长文本技术能力全面增强,且具备图像处理。时隔一年推出的GPT-4o,在多项测试中达到或超过GPT-4 Turbo。

这背后恐怕也是不菲的投入,OpenAI官网上列出的GPT-4o相关贡献人员约有200人。“不断尝试不同的模型和各种融合方案,算力可能需要万卡集群,还有语音和图像等标注费用,整体投入可能需要10亿-15亿美金这种量级。”张奇判断。

他认为,这其中主要的难点在于多模态融合,包括每个模态如何进入到整体框架,融合之后还要调任务、做强化学习等,更多都是偏工程层面的工作,而且往往不会一次性成功,所以需要花费非常大的代价。

尽管投入很大,但张奇认为,GPT-4o在一定程度上验证了大模型技术迭代曲线正在放缓的趋势。金沙江创投主管合伙人朱啸虎对此持相同观点。

因此,张奇表示,GPT-5未来升级瓶颈会非常大,Sora等视频生成可能很难融入。“基于数据驱动的模式,把这些模态都融合在一起可能就到头了,后面可能就是小的升级。”

傅盛同样认为,如果不计成本的累参数,提高所谓的大模型能力,这条路肯定容易遇到困难,目前看起来GPT-5可能还要难产一段时间。

不过,在此次发布会前夕,OpenAICEO奥特曼在采访中透露,OpenAI计划在今年夏天推出更先进的GPT-5模型,并可能采用与以往不同的发布策略,但具体时间并未透露。

奥特曼认为,未来的AI发展不应是一场数据和算力的军备竞赛,真正的突破需要在算法效率、芯片性能、能源供给等方面取得根本性进展,而OpenAI期待在算法上实现重大创新,从而提高模型的运行效率。

但OpenAI可能需要优先解决当下的危机,其已面临一定的流量焦虑,在此前放开ChatGPT的账号限制后,此次则决定GPT-4o向用户免费开放。

朱啸虎认为,OpenAI开始卷免费,说明GPT的用户和收入增长已经碰到瓶颈,不是深度绑定大厂的模型公司基本已经出局。

对此,张奇也表示认同,OpenAI是想通过免费方式占领市场,如果增长放缓,就可能对未来的融资会有很大影响。

自去年下半年以来,ChatGPT的流量增长就趋于放缓,尚未恢复到去年5月时的高峰。更关键的是,从今年以来,OpenAI正在受到越来越多的挑战,包括谷歌、Meta,以及AI独角兽Anthropic、Mistral等都推出了越来越强大的模型。

对谷歌来说,搜索是其核心领地,而此前就有爆料称OpenAI将会推出AI搜索,那么这对谷歌来说将是巨大的威胁,这也是谷歌自去年以来不断追赶OpenAI的核心原因。

张奇认为,在美国市场,从文本和图像来看,OpenAI和其它竞争对手的差距已经不大。“谷歌现在跟OpenAI的距离应该很接近,至少在产品层面差不多了。”

对国内而言,OpenAI和谷歌最新的技术发布,意味着差距进一步扩大。“从整体来看,肯定差距又在拉大,而且是在多模态融合模型方面,流式的输入推理,国内至少现在没有看到,追肯定也是现在起步。”张奇说。

傅盛表示,OpenAI此次发布说明了应用在AI领域大有可为,每一个创业者都应该去好好地做AI应用,大模型的能力当然会不断地迭代,但最终能够把大模型用好的还是应用。

“GPT-4o让我对大模型真正渗透到生活的方方面面重新产生了信心。”李志飞也表示,它有望让人机交互这个“渣男”重新做人,开启下一波的科技、应用和商业模式的革命。

奥特曼在早前采访中提到,未来的AI设备应该始终在线、无缝连接,能够通过语音或文本等自然交互方式准确理解用户需求,并提供个性化的智能服务。显然,GPT-4o承载了OpenAI意图革新人机界面的目标。

不过,在张奇看来,目前大模型的通用性没那么强,目前单纯依赖于大模型的刚需很少,同时针对特定场景开发的成本非常高,导致目前大模型落地很难。

随着世界最先进的大模型们不断迭代,大模型落地的路径和节奏会被加快吗?至少现在来看,还需要等待。

来源:搜狐科技

特别声明:以上作品内容(包括在内的视频、图片或音频)为用户上传并发布,本平台仅提供信息存储空间服务。如遇版权问题,请立即联系删除。

Notice: The content above (including the videos, pictures and audios if any) is uploaded and posted by the user. This platform merely provides information storage space services. In case of copyright issues, please contact us at the first time and we will remove the related content immediately.

相关评论
我要评论
  • 大名: (*请输入您的大名,缺省将显示IP地址。)
  • 内容:
  • 愛德華網絡世界(www.ok5266.com) © 2004-2024 版权所有 All Rights Reserved.
  • E-mail: ok5266@gmail.com E-ICP: 05013632 (CN)
  • Powered by Edward Web World V4.0.6
  • 执行时间:171.875 ms