中华网家电

设为书签Ctrl+D将本页面保存为书签,全面了解最新资讯,方便快捷。
业 界/ 互联网/ 行 业/ 通 信/ 数 码/ 手 机/ 平 板/ 笔记本/ 相 机
当前位置:频道首页 > 快讯 > 正文

盘古世界模型问世!华为博士天团答疑如何用4D空间重构物理世界

盘古世界模型问世!华为博士天团答疑如何用4D空间重构物理世界
2025-06-23 13:36:24 来源:看点时报

6月20日-22日,一年一度的华为开发者大会(HDC 2025)隆重启幕。大会期间,AI科技创业者、Al畅销书作者、人工智能头部自媒体博主GenJi(李艮基)携手华为博士天团,围绕盘古NLP大模型、盘古世界模型、具身智能,以及预测大模型四大核心内容,展开了一场深度技术对谈,华为AI领域核心研发团队首次集中揭秘,干货满满!

以下是本次直播实录“盘古世界模型”部分——

2合

GenJi:“世界大模型”一词被反复提及,那么,华为是如何理解世界大模型的?

金博士:之前大家对大模型的研究较偏重于理解这个世界、但我们更需要生成这个世界,以及预测这个世界的未来,因为只有预测未来世界,才能辅助做出一些决策、行为和交互,从而将物理世界和虚拟世界建立联系。为此大家想了很多路径,早在大模型之前,可能会采用一些人脑科学技术,通过对人脑过程进行模拟,构造理解模型;后来人们发现,借助数据驱动的方式反而更好,所以有了LLM大语言模型,通过数据驱动的算法学世界规律,该规律主要体现在文字层面或语义层面,语义层面只能做出理解,但无法驱动这个世界,因为驱动这个世界需要生成世界的能力,在这方面当前有很多种研究,包括多模态视频生成大模型、3D生成等。

GenJi:无论产界还是学界都对世界大模型有相关定义,那么,友商是如何界定的?

王博士:世界模型概念是较为广泛的概念。只从生成方向介绍,例如,有人认为大语言模型是对世界的生成,它也是一维的生成;有人认为普通的视频生成模型是世界模型,也能够生成真实的世界;再进一步,有人认为可控的视频生成,通过交互控制下一帧往哪个方向发展的视频生成模型,是一个世界模型;还有人认为只有生成一个完整的3D空间,显示出3D表征才算是世界模型。大家对此也还会有不同的理解。

GenJi:通过刚才的分享,让我想起马斯洛的《动机与人格》,从理解世界到生成世界,就是让机器和人工智能逐渐理解人做事情的动机,产生相关的行为。我想问一下两位,做世界大模型的初心或者动机是什么?

金博士:从两个层面来说:一是技术层面,之前做大模型都是偏单模态,如CV大模型、大语言模型。后来大家发现,之前的大模型都是单一图像或者NLP单一模态,在此基础上,通过融合产生了多模态理解大模型,即融合图像和NLP模态。另外,视频生成,它的输入是NLP或一种语言,这种语言往往比较简单,不像大语言模型,需要输入很长的tokens,继而生成一个视频、生成多样化世界的模拟。下一步,我们考虑是否能够将理解和生成做一个融合,因为世界是多模态的,会得到我们认为的动态输出加动态输入的全模态模型,这些模态也是我们人类现在感受到的世界原始信号。如果将人的行为纳入进去,如具身大模型、自动驾驶大模型,那么不光有真实世界感知的信号,还包括行为的信号。所以,从技术上来说,大模型会融合多种模态包括人的模态、自然的模态等。

二是业务层面,目前,为保障自动驾驶安全行驶,至少需要在真实路况上行驶110亿英里,因为交通事故等是没有办法进行预测的。因而,为了达到这一目的,我们可以在虚拟世界进行验证和仿真。其实,具身智能比自动驾驶更难,因为具身还没有训练数据集,所以需要在物理世界中采集和虚拟世界模拟训练数据集,从而满足具身大模型所需要的大数据量,实现具身大模型的scaling law训练范式。

GenJi:请问华为今年在STCG方面有哪些革新和变化?

金博士:其实做世界模型是一个持续的过程,我们从去年就开始了对这一技术初始能力的探索。去年,OpenAI发布Sora功能后,大家开始对视频生成产生极大的兴趣,但当时我们发现,大家做视频生成,集中于单相机的、偏娱乐质的视频,而这些在很多情况下不符合世界3D规律。为了实现这一目的,我们提出时空可控的视频生成技术,该技术的其中一个好处是,它可以将真实世界3D信号控制信息,例如,大模型可以用BEV map表示道路结构输入,于是我们可以把控制信号和模拟世界规律的信号,输入到一个多模态大模型中,保证生成视频和行为信息,而且所生成的视频不仅可以是单视角的视频,还能够生成多个相机的视频。如有一辆车过来的时候,贯穿正前方、左前方、左后方,以及正后方四个相机的过程中,其颜色、形状、运行规律将完全符合真实世界规律,因此可以保持它的3D一致

王博士:以我个人理解来说,当我们能够生成多视角视频的时候,已经说明我们的模型对于整个空间的3D、时间维度,都有了比较好的生成能力。但对于自动驾驶来说,仅仅只生成2D的信息,或者用2D的信息呈现是远远不够的。因为激光传感器是自动驾驶中非常重要的组件,所以很多自动驾驶的算法需要3D信息做感知。在此基础上,我们今年又增加了激光生成能力,也可以理解成,我们从去年的2D能力,提升到了三维,后续我们会更进一步,将它延展到4D空间的生成。

GenJi:插入一个相对业余的问题,STCG是什么的缩写?

金博士:是时间、空间可控的生成。为了实现不同行为的模拟,我们进一步生成4D世界,同时实现实时的、更高速度仿真的过程,我们依然是通过3D控制信号,生成精准的多相机的视频。下一步,我们将通过生成的视频,将其变成4D世界,满足自动驾驶模拟场景要求,并进行不同的场景推演,这个推演便可以对应真实的物理世界,加入一个硬件模拟器,以此验证自动驾驶是否符合真实驾驶的要求。比如,对同样一个4D世界,输出不同行为后,将会产生不同的驾驶行为,如实现车辆加减速、左右侧超车等,在我们验证重要的行为特征之后,获取到自动驾驶算法期望的结果后,我们就会认为它通过了测试,便可以进行实车的验证。

GenJi:我比较好奇在4D中,多出的这个D指代什么?以及在这一方面华为都实现了哪些技术上的突破创新,又是如何实现这一效果的?

王博士:我们在这里所说的4D,本质上是动态的3D。3D中,我们可以从不同的视角查看数据或观察世界,而4D就是在3D的基础上增加一些动态,比如时间维度的变化。甚至可能增加一些可控的变化,我们可以认为它是一种交互。这也是我们当前重点想要去做的方向。

从技术上说,我们业界主要的路线,包括二维视频、三维空间生成,但当前它们各自存在不同的缺陷。如可控的视频生成,可能在3D一致上比较有限;3D生成,则在动态能力上比较有限。我们的整体思路,是将视频生成能力与3D生成能力进行结合,把它推广到动态空间生成的能力上。可以看到,我们在这个逻辑上有两个路线,第一个是给视频生成增加一个显示的3D表征。另外一个是在3D基础上,利用视频生成做一个动态模型的生成或者编辑,这两个路线我们都有在进行探索。

GenJi:在整套技术里面,还有哪些会在未来改进或者完善的地方?

王博士:首先,当前我们只能生成较为局部的动态;其次,我们生成的动态持续时间相对较短,可以结为动态的范围小、时间短,这是后续比较重要的发展方向;此外,我们的动态是利用视频生成模型生成出来的,它对于物理的理解,可能还有待改进。因而,我们后面可以基于仿真引擎引入显示的物理知识,从而使我们生成的动态内容更加符合物理规律。

GenJi:请问两位在未来发展趋势和脉络里,有什么关于行业的洞见?

金博士:一方面,从世界模型角度出发,我们会回到大模型发展历程中来,之前我们大模型更偏重理解大模型,理解大模型对于理解模态的输入较多或较重,但是生成方面比较弱,而生成模型恰好相反,输入的模态、信息量较少,但是输出却比较大、比较重。所以,目前大家已经开始进行初步尝试将图像理解和图像生成做融合,这将是未来技术上的趋势。未来,视频、3/4D理解和生成的统一模型会更有挑战意义。

另一方面,从大模型底层表示出发,以NLP大语言模型举例,我们可以将其理解成一个一个token计算生成的过程,其实在3D世界中,我们的3D世界并不是一维信息,所以如果3D世界的时间和空间信息都变成控制信号,它可能会变成3D的token,或者4D的token,如此一来,如何表示3Dtoken、4Dtoken,业界还没有较好的办法,所以大家还是转化为和自然语言对齐的token来表示,这在信息效率和信息压缩上都有一些损失,因此,找到好的解决方法会是未来的趋势点。

GenJi:我们发现,现实世界里的物体在真实自然光照环境下产生的光影关系,以及主体的一致,很像您刚才所说,即本质上像是把世界都建模好了,所以我们现在不再是一个不断去创造新画面的过程,而像是一个摄像头在现实世界里的穿梭和移动,因为我个人对这类技术应用和发展有非常多的想象空间,所以也想请教一下两位在这块有什么展望?

王博士:我们引入了显式的3D表示,有显示的3D空间后,它将从光照到空间结构,都有更好的保持。甚至后续我们还想要让它实现物理上的引入,它也会有更好的基础。如果说我们只是从像视频生成统计的数据来说,可能比较难控制中间的过程。这就是我们当前在这一部分、在这个技术上的优势。但它同时也带来很多复杂的问题,因为3D的表示要比2D的表示更加复杂。

金博士:这分为两种路线,一种路线是数据驱动,OpenAI是数据驱动,只通过大量视频数据训练,自动学到物理规律等;还有一条路线是,我们可以将物理理论、物理公式嵌入到大模型中去。如果我们将两条路线做一个结合,既包含物理相应的知识,又包含数据驱动的统计规律,这对未来来说,将会是比较好的方案。

GenJi:这个挺有意思的,把我们高中学的那些物理公式,融入到现实世界物理的模拟中,比如动量守恒、两个球碰撞怎么传递动量,就能够通过虚拟世界去实现。

王博士:我们当前的主要技术路线除了刚才说到的可控视频生成、3D生成之外,还有类似传统的仿真引擎的过程,我们从技术上判断,这三个方向一定会逐渐的互相融合。比如,仿真引擎里面包含了很多物理的知识,我们将它的结果或它中间的知识,作为初始引导,无论是引导视频的生成,还是引导空间的生成,都会显示引入到物理知识,并带来较大的提升。

GenJi:在现实世界中,就像刚才提到的,我们先去理解世界,再去生成世界,但这个理解世界的过程也是很复杂的,像太空场景,在我们生活中很难模拟,所以,刚才所提到的这项技术,在未来是否会应用到火星探测等全新的太空探索中,做一些数据的模拟?毕竟我们很少有机会真的把探测相关的设备放到太空中去。

金博士:其实我们做这件事的初衷像你所说的一样,我们在做火星探测的时候,不可能采集到大量火星真实的数据,但比如说我们自动化的设备,需要验证在火星或是月球真实环境是否有效、是否真正发挥作用,我们只能通过几张图像,做出我们认为的三维世界,将待验证设备放到3D世界里面去,所以将这些物理设备进行3D交互,验证是否符合预期运行,确实是为了达到这样的目的而进行的。

面对纷繁的现实世界,盘古世界模型可以通过4D空间重构出符合物理规律的新世界,实现虚拟世界与真实世界的交互。未来,这一技术将会不断应用到自动驾驶、具身等不同领域,赋能更多行业实现新的突破与跃迁。

免责声明:市场有风险,选择需谨慎!此文仅供参考,不作买卖依据。

责任编辑:kj015

文章投诉热线:157 3889 8464  投诉邮箱:7983347 16@qq.com

关键词:

东鹏瓷砖VS大角鹿瓷砖,2025年加盟哪个品牌更赚钱?

2025-06-23 11:12:03东鹏瓷砖VS大角鹿瓷砖,2025年加盟哪个品牌更赚钱?

2025滋补品十大品牌揭晓!滋补界"全能王"方家铺子登榜TOP3

2025-06-23 11:11:062025滋补品十大品牌揭晓!滋补界"全能王"方家铺子登榜TOP3

2025最受消费者青睐滋补品牌TOP10发布!滋补界"全能王"登顶TOP2

2025-06-23 11:10:102025最受消费者青睐滋补品牌TOP10发布!滋补界"全能王"登顶TOP2

多面英才—中国抗癌协会第一届CACA肿瘤整合支持治疗青年辩论赛记实

2025-06-23 10:58:26多面英才—中国抗癌协会第一届CACA肿瘤整合支持治疗青年辩论赛记实

无主力不战:20年量化追踪,彦明精准锁定强势牛股

2025-06-22 10:04:08无主力不战:20年量化追踪,彦明精准锁定强势牛股

6月28日 北京安贞医院李斌教授莅临郑州长江中医院会诊 助您“豫”见好孕

2025-06-21 12:10:226月28日 北京安贞医院李斌教授莅临郑州长江中医院会诊 助您“豫”见好孕

相关新闻