contact us
联系我们POSTTIME:2026-02-08 作者:小编 点击量:
2月4日,在思科(Cisco)AI峰会上,李飞飞以World Labs创始人的身份,披露了公司首款空间智能产品Marble的技术细节 。
作为这一轮生成式AI浪潮的核心奠基者之一,李飞飞并未盲目追逐大语言模型的热潮。相反,她再次抛出了一个鲜明的识观点:单纯的大语言模型无法通往AGI。
在李飞飞看来,语言在生物进化史上只是最近50万年的产物,而视觉与触觉所代表的空间智能,早在5亿年前的寒武纪就开启了神经系统的演化竞赛。如果AI无法理解三维物理世界、无法具备物理直觉,它就只能被永远困在数字的像素中。
带着这样的判断,李飞飞创办的World Labs试图走通一条不同于OpenAI的路径:通过构建具有物理一致性的世界模型,为AI补上感知的短板。
李飞飞用生物进化的宏观视角重新审视了AI的发展路径:语言在人类进化史上只有约50万年的历史,是极其晚近的产物。相比之下,视觉、触觉等感知能力早在5亿年前的寒武纪就开启了演化竞赛。
结论是:如果AI只有语言能力,它将被永远困在数字世界中。只有补齐了比语言更古老、更基础的空间智能,让机器拥有理解、推理并与三维物理世界互动的能力,AI才能线. 重新定义世界模型:物理一致性(Physical Consistency)是关键。
李飞飞介绍,作为一个前沿空间智能模型,Marble能接收多模态输入,无论是句子、图片、视频还是简单的3D输入,并将这些提示词转化为一个完全可导航、可交互且具有永久一致性的3D世界。
3. 随着合成数据技术的成熟,世界模型即将迎来类似LLM的Scaling Law爆发时刻。
为什么物理世界的AI 发展比语言模型慢?核心瓶颈在于数据的信噪比。文本数据是清晰、语义明确的,而物理世界的像素(Pixels)和体素(Voxels)充满了噪音,且难以大规模获取 。
4. 通用机器人才是AI技术的皇冠,因为自动驾驶与通用机器人的逻辑完全相反。
大众往往认为自动驾驶是AI技术的皇冠,但在李飞飞看来,通用机器人的维度要高得多。
面对当前关于AI毁灭人类或技术乌托邦的极化争论,李飞飞表现出了科学家的审慎与人文关怀。
主持人:很高兴能亲眼见证World Labs在过去一年中所取得的进展。让我们先来聊聊你们正在做的事情,以及它为何如此重要。
李飞飞:现在我每天醒来脑子里只思考一件事,那就是空间智能(spatial intelligence)。大约两年前,我与一群年轻的技术专家共同创立了World Labs。为什么空间智能如此重要?我认为它是AI的下一个前沿领域。如果从进化的角度看待智能发展,这段历史可以追溯到5亿多年前。最先开启神经系统演化竞赛的是感知而非语言。相比之下,语言是一种非常新颖的智能形式,历史大概只有50万年。但在15亿年前,动物就开始感知光线并触摸环境,从而产生了触觉、视觉、本能和知觉。
“本能”这个词虽然有些模糊,但不可否认的是,正是通过触觉和视觉与物理世界进行身体接触,才开启了神经系统的发育,引发了动物进化的军备竞赛。这使得生物在与环境交互中变得越来越活跃,也越来越智能。我想表达的是,在线D物理世界中进行理解、推理、交互和导航的能力是基础性的,与语言智能同样重要。这一核心关键技术就是空间智能。这就是为什么我认为它是AI的下一代前沿领域,也是World Labs一直致力于构建的目标。
李飞飞:Marble是我们第一代空间智能模型。虽然我们常随口称其为世界模型(world model),但鉴于目前关于世界模型的定义繁多,称谓其实并不重要。本质上,这是一个前沿的空间智能模型。Marble能接收多模态输入,无论是句子、图片、视频还是简单的3D输入,并将这些提示词转化为一个完全可导航、可交互且具有永久一致性的3D世界。这与大家现在看到的视频模型截然不同,Marble生成的环境拥有几何结构,支持模拟机器人动作或编写游戏代码等操作。
李飞飞:其实不需要等五年,我们的用户和客户已经开始尝试早期版本的模型了。我们看到用户利用它开发游戏;视觉特效(VFX)客户将其用于商业化的虚拟制作场景;包括Nvidia在内的大公司、初创企业及学术实验室等合作伙伴,正在利用Marble作为训练环境来训练机器人;建筑师和设计师则用它进行室内设计。
我们还发现了一些意想不到的用例。例如,临床研究人员对Marble表现出了极大的热情。大量的精神病学和心理健康研究及干预手段都需要沉浸式环境,且需针对特定情况进行个性化定制。以强迫症(OCD)为例,患者会被非常具体的场景触发,比如我个人会被堆积的脏衣服困扰,但每个人的触发点各不相同。研究人员发现搭建实体环境非常困难,而Marble只需输入提示词,几分钟内就能生成各种不同类型的环境。
李飞飞:这个问题问得很好。正如我们讨论过的,即便到了我们这个年纪,保持求知欲和学习能力依然是最重要的事情。我投身AI领域已经很多年了,最初是因为强烈的好奇心,我想探索什么是智能以及如何让机器变得智能。当时AI还是一个无人问津的冷门领域,大家甚至不知道怎么拼写AI,那段时光非常有趣。但过去十年发生了翻天覆地的变化,AI对我而言不再仅仅是个人层面的追求,它已经上升到了文明层面。这让我作为教育者和企业家多了一层责任感,不仅要在技术上做出贡献,还要推动其健康发展。
作为企业家,最让我惊讶的有几点。首先是过去几年AI的发展速度令人屏息。无论我们外表如何淡定,内心深处都难免焦虑,因为有太多的论文要读、太多的博客、新闻和模型发布。这种焦虑感正是我们这个时代的写照,技术正以惊人的速度推动我们前进。这让我既兴奋又清醒,正如苏格拉底所言“我一无所知”,我希望大家不要放弃学习,保持好奇心。
另一点让我惊讶甚至担忧的是关于AI的极化言论。网络上的讨论往往是非黑即白的:要么是完全的技术乌托邦主义,忽略了技术是一把双刃剑;要么就是末日论调,仿佛人类时刻面临生存危机。对于一项对人类文明如此深远的技术,这种讨论方式是不负责任的。主动权掌握在每一位企业家、产品经理、工程师和公民手中,我们需要具备能动性来引导技术的发展。我线年及未来的过程中,我们能更客观、细腻且心怀仁慈地看待AI,既保持乐观,又肩负起责任,而不是为了博取眼球去发表极端言论。
李飞飞:如果我们把时间回拨一百多年,想象一下当时的人们如何定义电力的成功。很难想象那个版本的我们能预见到今天的景象,但我希望那时的愿景是:学校灯火通明,家园温暖如春,机器被赋予力量实现工业化,进而延长人类寿命,让更多孩子接受教育。这就是技术和AI的意义,是一种永恒的价值。成功的定义应该是文明变得更加美好,而文明是由每一个追求幸福、繁荣且拥有尊严的个体组成的。这就是AI以及每一项技术成功的定义。
主持人:接下来我们谈谈战术层面。Large World Models(大型世界模型)的计算密集度是否与Language Models(语言模型)相当?
李飞飞:首先,存在不同种类的大型世界模型。我们致力于创建具有显式3D表示的世界模型,以赋能机器人、游戏、娱乐和设计等领域。还有一类通常被称为世界模型的其实是视频生成模型。目前我们的模型规模并没有那么大。从宏观视角来看,GPT-5的训练量大约在10的26次方flops(每秒浮点计算)左右,而我们的Marble模型在规模上仍要小几个数量级。
李飞飞:我认为两者兼而有之。规模化确实始于数据和模型参数,数据起到了重要作用。但另一方面,这个领域还处于早期阶段。Transformer论文发表于2016年左右,语言模型的发展已经快十年了,而世界模型是一个新得多的领域。虽然过去两年我们降低了一些科学风险,但仍处于探索模型架构的相对早期阶段,所以规模较小。不过考虑到我们实验室以及整个领域的进展,接下来的几年将会非常令人兴奋,我们将见证大型世界模型在Scaling Law(规模定律)曲线上的飞跃。
主持人:这让我很着迷。语言模型是在互联网上免费、公开的数据上训练的,获取海量数据相对容易。但物理数据很难获取,因此合成数据(Synthetic Data)变得至关重要,同时你也需要以更慢的速度去收集真实数据。这带来了哪些限制?世界模型的进步速度会因此变慢吗?我们会拥有通用机器人,还是因为数据限制只能拥有专用机器人?
李飞飞:这是一个信息量很大的问题。在World Labs,我们采取混合数据策略。我非常羡慕研究语言的朋友,因为语言数据的输入是完全可观测的、单一模态的,且含义清晰。而像素或体素构成的3D世界则要混乱得多。为了突破技术极限创造3D、4D世界,我们必须意识到我们并没有海量的3D数据。因此我们采取分层混合方法:利用互联网规模的文本、图像和视频,结合模拟数据,再加上真实世界采集的数据。这就像自动驾驶公司花费数十年收集真实和模拟数据一样。
关于通用机器人,这几句话就能概括,但做起来很难。我在斯坦福运营机器人实验室十多年,作为科学家,我必须承认这是一个极具挑战的问题。看清北极星并不意味着旅程会很短。回想2006年,我和同事带领团队创造了第一辆在沙漠行驶138英里的自动驾驶汽车,当时我们预言20年后会有自动驾驶汽车。直到去年,Waymo才开始在城市街道大规模运行,这确实是一段漫长的旅程。
汽车与机器人的区别在于,汽车可以被视作一个在二维平面上移动的方块机器人,它的目标是不要碰到任何东西。而机器人是一个三维实体,在三维世界中运行,通用机器人的目标是必须接触物体而不破坏它们。这是一个更高维度的问题,加上手部模拟的极高难度、视觉的精准度以及空间理解的需求,挑战巨大。这就是我创立World Labs的原因。我不喜欢过度承诺,但这确实是我们致力于解决的重要问题。
李飞飞:虽然我的思维方式有时候还像个研究生,总想着要有免费食物才行,但对于企业而言,World Labs非常乐意与合作伙伴交流。世界模型和空间智能是一项横向技术。我们谈论机器人、模拟和沉浸式交互娱乐,但这不仅仅局限于此。我们还没有深入探讨医疗保健、教育产品、现场服务、金融服务、农业制造、仓储检测以及城市规划等领域。利用空间智能我们可以做的事情还有很多,这确实是下一个前沿领域,我邀请大家无论是与我们合作还是独立开展研究,都加入到这个进程中来。
《第九圣诗》试玩报告:多做多错,不做不错/
主站 商城 论坛 自运营 登录 注册 《第九圣诗》试玩报告:多做多错,不做不错 Haine 2026-0...
全体地铁玩家都能肥肥撤离,《和平精英》这招太狠了/
主站 商城 论坛 自运营 登录 注册 全体地铁玩家都能肥肥撤离,《和平精英》这招太狠了 廉颇 2...
冠捷推出26.5英寸AOC G4白色显示器:LGD四代WOLED,2919元
华硕ROG骇客RTX 5090D v2显卡30周年纪念版上市,29999元
三星预热首款Ultra扫地机器人:越障4.5厘米、100°C高温洗拖布