在 AI 技术突飞猛进的今天,一个看似矛盾的现象持续困扰着研究者:那些能创作出惊艳艺术作品、撰写复杂论文的人工智能,在面对真实物理世界时却显得笨拙不堪。从冰箱取物的简单动作到复杂的空间导航,大多数 AI 仍困在二维平面的思维定式中,无法理解三维空间的深度与动态变化。这种 "维度认知缺陷",正成为制约具身智能发展的关键瓶颈。
传统 AI 模型的视觉理解局限于像素阵列构成的二维图像,这导致它们在处理真实场景时频频碰壁。以家庭服务机器人为例,当它试图从杂乱的桌面抓取水杯时,由于缺乏对物体空间位置、尺寸比例和运动轨迹的感知,往往会出现抓取角度错误、碰撞障碍物等问题。这种认知断层不仅限制了机器人的实用性,也让 AI 在工业装配、医疗手术等需要精准空间操作的领域难以施展拳脚。
来自马萨诸塞大学阿默斯特分校、香港科技大学和哈佛大学的联合研究团队,通过开发 TesserAct 模型,为 AI 认知带来了革命性突破。这个以科幻作品中高维立方体命名的系统,创新性地将三维空间与时间维度相结合,赋予 AI 理解四维动态世界的能力。
TesserAct 没有采用传统的复杂场景预测方式,而是另辟蹊径,通过预测
RGB-DN 视频流实现对四维空间的表征:

- RGB 通道:提供物体的视觉外观信息
- 深度图 (D):标注每个像素点与摄像头的距离,构建空间立体感知
- 法线图 (N):描述物体表面的朝向和纹理特征,增强对物体形状的理解
这种多模态数据组合,不仅包含了丰富的视觉信息,更构建起完整的空间几何模型,使 AI 能够 "看见" 物体的立体形态和运动轨迹。
为解决四维数据获取难题,研究团队采用 "虚拟仿真 + 现实标注" 的混合模式:
- 虚拟世界:在仿真环境中生成大量带有精确三维标注的合成数据
- 现实世界:运用先进的计算机视觉算法,为真实场景视频添加深度和法线信息
- 人类交互数据:补充人类与物体互动的行为数据,增强模型对真实场景的理解
这种数据融合策略,既保证了数据的数量与质量,又兼顾了现实场景的复杂性。
TesserAct 巧妙利用预训练的 CogVideoX 模型,通过模块化改造实现四维数据处理:
- 多模态编码器:分别处理 RGB、深度和法线视频流
- 投影仪模块:融合不同模态信息,构建统一的四维表征
- 优化算法:运用光流分析和时空约束,将预测数据转化为连贯的动态场景
这种基于迁移学习的设计,大幅降低了训练成本,同时提升了模型性能。
在多项关键测试中,TesserAct 展现出碾压传统模型的优势:
- 场景生成:在 4D 场景合成任务中,生成画面的空间一致性和动态真实性显著提升
- 视角变换:能够从任意角度重构场景,展现强大的空间理解能力
- 机器人控制:基于 TesserAct 的机器人在复杂操作任务中的成功率提升 40% 以上,尤其在需要预判物体运动的场景中表现突出
TesserAct 的诞生,不仅是 AI 认知能力的一次重大突破,更为具身智能的发展指明了新方向。想象一下,未来的机器人可以通过 "预演" 不同操作方案,提前规划最优行动路径;自动驾驶系统能够精准预测其他车辆的运动轨迹;甚至智能家居设备都能理解人类的空间意图。
尽管目前 TesserAct 仍存在数据泛化、计算效率等挑战,但这项研究无疑为 AI 打开了一扇通往高维认知的大门。或许在不远的将来,具备四维感知能力的智能体将真正融入我们的生活,以更加自然、高效的方式与物理世界互动。