Mon - Fri: 10am - 5pm
+86+86 186 7944 5240
Home- Blog- Blog Details
近年来,诸如元宇宙、Web3.0、仿真数据平台、数字孪生和物理AI等概念层出不穷,这使得普通大众感到困惑。
这些概念与世界模型之间存在怎样的关联?
它们的答案是:它们并非完全相同,但都指向了数字世界与物理世界界限日益模糊化的趋势。
世界模型更像是这些概念的“认知层”或“底层操作系统”,其职责在于使人工智能能够理解并推演现实世界。
并非同一事物,但同属一个范畴
过去几年科技界热门的概念大致可归为三类。
第一类是“空间体验”,以元宇宙为代表。其目标是构建一个让人们在虚拟空间中进行社交、工作、消费和生活的环境。
第二类是“生产关系”,以 Web3.0 为代表。其目标是利用区块链技术重塑数据所有权、身份认证和激励机制。
第三类是“技术能力”,涵盖仿真数据平台、数字孪生、物理AI和世界模型。它们都致力于通过数字化手段来理解、模拟、预测或生成物理世界。
世界模型属于第三类,但其定位更为基础。
它并非某种具体应用,而是一种使人工智能能够在内部构建可供推演的世界的能力。元宇宙可能需要依赖它,仿真数据平台是它的前身,数字孪生是它的近邻,物理AI是它的载体,而Web3.0则基本与其不在同一技术层面。
以下将逐一进行阐述。
元宇宙:世界模型或为其“驱动引擎”
在元宇宙概念最火爆的时期,人们描绘的是一个沉浸式的虚拟社会,其中包含虚拟形象(Avatar)、虚拟地产、数字资产、线上音乐会和远程办公等元素。其核心是一种“空间体验”,即人们可以进入其中进行社交、消费和创造。
然而,当时元宇宙面临的最大瓶颈是内容生产。建造一个虚拟城市需要庞大的美术和工程资源,成本高昂,但体验却相对初级。许多项目最终沦为空洞的展示空间或被用于投机性土地交易,用户体验一番后便不知所措。
若世界模型得以成熟,便可以直接通过文本生成可交互的3D世界,相当于为元宇宙配备了一个“自动生成器”。Google Genie 3已初步展现了这一能力:输入一段描述,即可生成一个可供实时探索的世界。未来,用户可能只需说“我想漫步于1920年代的上海外滩”,世界模型便能为您构建一条街道、一些虚拟人物(NPC)以及一段故事情节。
因此,两者并非同一事物。元宇宙是“目的地”,而世界模型是“铺设道路和建造城市的工具”。世界模型不一定非要服务于元宇宙,但要实现低成本、大规模、可交互的元宇宙,很可能离不开世界模型。世界模型有望弥补元宇宙未能实现的部分。
Web3.0:与世界模型基本不在同一层面
Web3.0的核心是区块链、去中心化、代币经济和用户数据所有权。它旨在解决互联网的所有权和激励问题,而非“机器如何理解和模拟世界”。
打个比方:世界模型研究的是“人工智能如何在内部模拟世界”,而Web3.0研究的是“这个世界的数字资产归属和交易方式”。两者可以结合——例如,在由世界模型生成的虚拟世界中,通过NFT进行土地交易,或使用DAO(去中心化自治组织)来制定虚拟城市的规则——但它们的技术内核完全不同。
因此,Web3.0与世界模型基本不是一回事。它们的关系更像是:Web3.0可能是未来虚拟世界的“经济规则”,而世界模型是“物理规则”。前者涉及社会科学问题,后者属于工程技术问题。
仿真数据平台:世界模型的1.0版本
这是最接近的。过去几年,自动驾驶公司在仿真平台方面投入了巨资,例如CARLA、51World、Unity自动驾驶仿真和NVIDIA DRIVE Sim。它们的核心价值在于:在虚拟世界中生成极端场景,以较低成本训练自动驾驶算法。
这些平台的问题在于,场景的构建大多需要人工搭建或遵循规则生成。例如,暴雨、暴雪、异常障碍物、行人突然穿越等“角点案例”(Corner Case)需要设计师逐一建模,效率低下。而且,基于规则生成的场景往往不够自然,算法过度训练可能会导致其过拟合到人工痕迹上。
世界模型的作用在于,利用人工智能自动生成这些场景。它不依赖设计师手工摆放障碍物,而是从真实数据中学习物理规律,然后生成无限接近真实的变体。小鹏汽车声称其世界模型支持的仿真测试每天相当于3000万公里的路测,而地平线公司则能让模型在30秒内生成一段可控驾驶视频。
因此,仿真数据平台和世界模型可以被视为同一事物的1.0和2.0版本。前者依赖人工和规则,后者则通过人工智能生成。世界模型并非否定仿真数据平台的价值,而是使其智能化、自动化和规模化。
数字孪生:世界模型增加了“预测未来”的能力
数字孪生近年来在工业、城市和能源领域备受关注。其核心是对物理世界进行高精度的1:1镜像复制。例如,为工厂创建一个数字版本,实时同步设备状态,用于监控、运维和优化。为城市创建数字版本,用于模拟交通流量、管网压力和灾害响应。
数字孪生是“现在的镜子”,它回答的问题是:“现实世界现在怎么样?”
而世界模型则是“未来的沙盘”。它不仅要了解工厂当前的状态,还要能够预测:“如果这条生产线加速,设备是否会过热?”“如果机器人这样移动,是否会撞到货架?”“如果明天有台风,电网负荷会如何?”它回答的问题是:“现实世界将会怎么样,以及我应该如何行动。”
因此,世界模型包含数字孪生的一部分能力,但更进一步:从“复制现实”转向“推演未来”。可以将数字孪生理解为世界模型的一个组成部分或先决条件,但世界模型的野心更为宏大。
物理AI:世界模型是其核心组件之一
黄仁勋和英伟达近年来一直在倡导“Physical AI”,即能够在物理世界中行动的人工智能。自动驾驶汽车、人形机器人、工业机械臂、无人机等都属于这一范畴。
物理AI需要三个要素才能行动:
世界模型负责中间环节——理解世界规律并预测未来。它使人工智能不仅仅是看到前方有障碍物,而是能够预判障碍物的下一步移动,以及自身不同动作可能导致的结果。
因此,可以说世界模型是物理AI的核心组件,但并非物理AI的全部。物理AI还包括传感器、执行器、控制算法、安全系统等。世界模型是物理AI的“大脑皮层”,负责在行动前进行推演。
一张图看懂关系
如果将其置于一个层次结构中,大致如下:
世界模型处于“认知层”,向上支撑应用工具、行动系统和虚拟体验,向下依赖算力和数据。它本身并非任何一个概念,但可能是许多概念的共同基础。
世界模型或为这些概念的“操作系统”
这些概念之所以容易混淆,是因为它们都指向同一个大趋势:数字世界与物理世界的边界正在模糊化。
元宇宙旨在让人类更多地生活在数字世界; Web3.0 旨在让数字世界的资产归个人所有; 仿真数据平台旨在利用数字世界训练物理世界的人工智能; 数字孪生旨在实时同步两个世界; 物理AI 旨在让AI在物理世界中行动; 而世界模型,则是让AI在内部拥有一个可供推演的世界,是连接数字与物理的“认知层”。
世界模型不一定会取代这些概念,但它可能成为许多概念的底层基础设施。正如操作系统不取代应用程序,但所有应用程序都运行在操作系统之上。元宇宙、仿真平台、数字孪生、物理AI等应用程序,最终可能都需要世界模型这个操作系统来调度对世界的理解。
那么,过去热门炒作的概念与世界模型是否是同一事物? 严格来说,不是。
但许多概念当初描绘的愿景,最终可能需要依靠世界模型来实现。
October, 2016
October, 2018