近日,智象未来团队两项创新成果入选ICCV 2025,分别聚焦于图像生成与视频增强两个方向,全面展示了其在生成式AI技术上的突破与领先。
在图像生成方面,智象未来团队提出了全新去噪掩码自回归生成范式De-MAR,解决了自回归模型在视觉生成中的关键瓶颈。自回归模型虽在语言领域大获成功,但在图像生成中存在细节表现力不足、推理速度慢等痛点。De-MAR框架通过双重令牌优化机制,创新性引入扩散头与去噪头模块:扩散头利用交叉注意力捕捉全局上下文,提升掩码区域预测精度;去噪头动态优化已知区域令牌,减少误差累积。实验显示,De-MAR在ImageNet和MS-COCO数据集上,FID指标达1.47和5.27的顶尖水平,生成速度较DiT-XL/2快45%,打破高质量与高效率不可兼得的困境,生成图像细节更丰富、伪影更少。
在视频增强方面,团队则推出了创新的生成式视频画质增强框架GenVE,攻克传统方法细节缺失难题。其核心在于双重对齐机制:通过图像扩散模型生成语义参考,确保全局布局一致;借助局部感知交叉注意力模块,精准迁移参考图像的纹理细节至视频。同时,多重增强策略提升模型鲁棒性:噪声增强平衡质量与保真度,时间增强强化帧间连贯性,掩码策略提升特征利用率。在YouHQ40、VideoLQ等数据集上,GenVE的MUSIQ、DOVER等指标全面领先,能生动还原毛发、衣物褶皱等细节,使视频画面更自然流畅。
这两项成果分别发表于ICCV 2025 论文《Denoising Token Prediction in Masked Autoregressive Models》和《Aligning Global Semantics and Local Textures in Generative Video Enhancement》,为视觉生成技术开辟新路径,推动高质量、高效率的多模态内容生成迈向实用化,未来有望在创意设计、影视制作等领域广泛应用。
责任编辑:kj015