6月4日消息,今年4月,著名计算机科学家、斯坦福教授,有“AI教母”之称的李飞飞在温哥华举行的2024年TED大会上,发表了以《有了空间智能,AI将会理解现实世界》为题的15分钟演讲,分享了她关于空间智能及其改变世界的力量的看法。
值得一提的是,李飞飞在斯坦福大学的个人资料显示,她从2024年初到2025年底处于部分休假状态。据路透社报道,目前她正在创办一家初创公司,创业的方向正是空间智能。
李飞飞在演讲中提到,随着神经网络算法的出现、GPU能力的提升,加上大数据的助力,计算机视觉领域实现了快速的发展。
目前,研究者们已经不满足于仅仅让计算机看见世界,而是追求让计算机理解世界,在观察世界这个三维空间的过程中学习知识并做出行动。这便是所谓的“空间智能”(Spatial Intelligence)。
李飞飞指出,行动的冲动是所有具有空间智能的生物的天性。如果想让目前的AI实现能力上的突破,完全发挥出当下这场数字寒武纪大爆发的潜力,空间智能是必不可少的。
同时,她也提醒道,要实现空间智能并不容易。开发者需要深思熟虑,确保AI技术始终以人为本。但如果我们真的能开发出造福人类的空间智能计算机与机器人,我们定能创造出一个更为美好的世界。
以下是李飞飞四月份TED演讲的完整编译:
一、看见世界理解世界,是智能的催化剂
我要向大家展示一些东西。确切地说,我要展示的是一片虚无。这就是5.4亿年前的世界:纯粹的、无尽的黑暗。世界一片漆黑并不是因为缺乏光线,而是因为缺乏能看见这个世界的眼睛。
在这个世界里,阳光能穿透到一公里深的海底,海底热液喷口也正散发着光芒,生命在这里蓬勃发展。但在这些古老的水域中,却没有一只眼睛能够看到这些景象。没有视网膜,没有角膜,没有晶状体。所有这些光芒,所有这些生命都无人见证。
在过去,“看”这一概念并不存在,没有生物真的看到过世界。直到这个时刻的到来。
三叶虫出现了,这是地球上第一种能够感知光的生物。它们出现的原因我们目前也才略知一二。但它们是我们现在习以为常的生活环境中的第一批栖息者,也是第一批发现除了自己外还有其他事物存在的生物。它们意识到,世界是由许多其它“自我”组成的。
视觉被认为是寒武纪生命大爆发背后的推手。这是一个动物物种大量进入化石记录的时期。最初,这些动物只是被动地接受光线,逐渐演变成更为主动的行为。神经系统开始进化。视力转化为洞察力,理解转化为行动,这一切催生了智能。
二、三股力量推动AI时代到来,不可能已成为可能
现在,我们不再满足于仅仅依靠自然赋予我们的视觉智能。好奇心驱使我们创造出和我们一样甚至更聪明的机器。
九年前,在这个舞台上,我汇报了计算机视觉这一AI分支领域的早期进展。当时,有三股强大的力量首次汇聚在一起:第一股力量是一种被称为神经网络的算法家族;第二股力量是快速的专用计算硬件,也就是GPU;第三股力量是大数据,比如我的实验室当时花了数年时间构建出来的ImageNet图片数据库。这三股力量一同推动了AI时代的到来。
我们现在已经有了长足进步。当时,单单是给图片打上标签就是一个重大的突破。但这些算法的速度和准确度迅速提高。由我的实验室主导的年度ImageNet挑战赛评估了这一进展。在这个图表上,你可以看到每年的改进和具有里程碑意义的模型。
我们更进一步,创建了能够分割对象或预测它们之间动态关系的算法,这一算法是我的学生和合作者们的工作成果。
不仅如此,还记得上次我展示的第一个能用自然语言描述照片的计算机视觉算法吗?那是我和我杰出的学生Andrej Karpathy合作的成果。当时,我碰运气般地问他:“Andrej,我们能让计算机做相反的操作吗?”Andrej笑着说:“哈哈,那是不可能的。”
但正如这篇推文中所说的,不久前,不可能的事情变成了可能。
这要归功于一系列扩散模型,它们推动了如今生成式AI算法的发展。这些算法可以根据人类提示的句子生成全新的照片和视频。许多人已经看到了OpenAI的Sora最近令人印象深刻的成果。
但即便没有大量的GPU,我的学生和我们的合作者也开发出了一个叫做Walt的生成视频模型。我们模型的发布时间领先Sora数月。你现在看到的是其中一些生成结果。
这些结果还有改进的空间。看看那只猫的眼睛,还有猫虽然在水下但却没有打湿自己。这真是一场灾难(cat-astrophe)。
三、看见世界远远不够,空间智能让看见变为行动
过去仅仅是序章,我们将从这些错误中学习,创造我们想象中的未来。在这个未来中,我们希望AI能帮我们完成一切事情,或者拥有帮助我们完成一切事情的能力。
数年来我一直在强调,拍下一张照片并不等于看见和理解所拍的内容。而今天我还想补充一点,仅仅是看见还远远不够。
看是为了做和学。
当我们在三维空间和时间中对这个世界采取行动时,我们也在学习。我们在学习如何更好地看和做。自然创造了这个由“空间智能”(Spatial Intelligence)驱动的良性循环。为了展示“空间智能”有什么用处,我要向大家展示这张图片。如果你看到它之后,有想要做点什么事情的冲动,请举手。
在刚才短短的一秒钟里,你的大脑看到了这个玻璃的几何形状,看到了它在三维空间中的位置,与桌子、猫等一切事物的关系。你可以预测接下来会发生什么。
行动的冲动是所有具有空间智能的生物的天性,它将感知与行动联系在一起。如果我们想要推动AI超越当前的能力水平,我们需要的不仅是能看和说的AI。我们需要能做出行动的AI。
四、空间智能已取得初步进展,机器人可以给你做饭了
实际上,我们正在取得令人兴奋的进展。最近在空间智能方面的里程碑时间是教会计算机观察、学习、做出行动以及更好地学习和做出行动。这并不容易。
自然界花费了数百万年时间才进化出了空间智能。这种智能需要依靠眼睛接收光线,将二维图像投射到视网膜上,然后让大脑将这些数据转换为三维信息。
直到最近,谷歌的一组研究人员才开发出一种算法,可以将一组照片转化为三维空间(如下图所示)。
我的学生和我们的合作者更进一步,创建了一种算法,可以将一张输入图像转换为三维形状(如下图所示)。
还记得我们谈过的能够将人类的语句转换为视频的计算机程序吗?密歇根大学的一组研究人员找到了将这句话转换为三维房间布局的方法(如下图所示)。