在人工智能图像生成领域,一场技术革新正在悄然上演。近日,来自 Meta、西北大学、新加坡国立大学等顶尖机构的研究团队,联合发布了一项名为 TokenShuffle 的创新技术,成功实现自回归模型首次生成 2048×2048 分辨率的高质量图像。这项突破不仅打破了传统认知中自回归模型在图像合成领域的瓶颈,更可能重塑多模态大语言模型(MLLMs)的发展格局。
长期以来,自回归模型在语言生成领域占据统治地位,但在图像合成方面却始终难以与扩散模型抗衡。核心症结在于,传统自回归模型处理图像时需要应对海量视觉 token,导致计算效率低下,严重制约了图像分辨率和生成质量。此次研究团队敏锐捕捉到多模态大语言模型中视觉词表存在的维度冗余问题 —— 视觉编码器输出的低维特征,被直接映射到高维语言词表空间,造成资源浪费。
为解决这一难题,TokenShuffle 应运而生。该技术通过两项核心操作实现效率飞跃:在 Transformer 输入阶段,token-shuffle操作沿通道维度合并局部空间内的视觉 token,如同将零散拼图整合为板块,大幅减少输入 token 数量;而在推理阶段,token-unshuffle操作则精准还原视觉 token 的原始空间结构,确保信息完整性。这种压缩 - 还原机制巧妙地在不改变序列长度的前提下,降低 Transformer 运算量,实现计算效率的二次提升。更令人惊喜的是,该方法无需修改 Transformer 架构,也无需引入复杂的辅助损失函数,真正做到即插即用。
基于 27 亿参数的 Llama 模型,TokenShuffle 展现出令人惊叹的性能。在 GenEval 基准测试中,该模型综合得分达到 0.62;在 GenAI-Bench 上,VQAScore 更是高达 0.77,不仅显著超越同类自回归模型,甚至在多项指标上优于传统扩散模型。例如,在处理复杂文本提示时,TokenShuffle 在 GenAI-Bench 的 “高难度” 提示测试中,得分比 LlamaGen 高出 0.18,比扩散模型 LDM 高出 0.15。
为确保评估的客观性,研究团队还开展了大规模人类评估。在文本对齐度、视觉缺陷率和美学质量三大核心指标上,TokenShuffle 全面超越基于自回归的 LlamaGen 和 LuminamGPT。尽管在视觉缺陷控制方面略逊于扩散模型 LDM,但其在文本 - 图像对齐与高分辨率生成上的卓越表现,足以证明自回归模型在图像合成领域已具备与扩散模型分庭抗礼的实力。
为实现高分辨率图像生成,研究团队设计了一套精妙的三阶段训练策略。首先,在低分辨率(512×512)阶段,模型进行基础训练,此阶段不使用 TokenShuffle,专注于学习图像基础特征;第二阶段将分辨率提升至 1024×1024,同步引入 TokenShuffle 技术,在保证计算效率的前提下扩展训练数据量;最后,在 2048×2048 的终极阶段,通过引入 z-loss 稳定训练过程,确保模型能够生成超高清图像。这种循序渐进的训练方式,成功平衡了效率与质量的双重需求。
TokenShuffle 的出现,不仅是自回归模型在图像生成领域的历史性突破,更揭示了其在多模态大语言模型中的巨大潜力。该技术无需依赖额外的文本编码器,就能让 MLLMs 在统一的 token 预测框架下支持超高分辨率图像合成,为开发高效、低成本的多模态 AI 系统开辟了新路径。随着研究的深入,TokenShuffle 有望成为高分辨率图像生成的基准方案,推动自回归模型在创意设计、虚拟内容生成等领域的广泛应用,加速人工智能多模态时代的到来。
此次研究的第一作者马旭,是美国东北大学工程学院的博士研究生。其在模型效率、多模态大语言模型领域的持续深耕,曾多次获得 ICME 最佳学生论文奖、NeurIPS 杰出审稿人等荣誉。这位年轻学者的创新成果,或许正预示着人工智能技术新一轮的爆发式发展。