当前实时数字人产业正面临长时生成不稳定、显存成本高、细节易漂移等现实瓶颈,AI 技术的架构创新成为破局关键。近期,Soul AI Lab 发布 SoulX-LiveAct 开源模型,以独创机制实现小时级稳定流式生成与恒定显存占用,相关技术突破在 Soul 上市推进过程中,成为平台技术布局的重要组成部分。在 Soul IPO 稳步推进的阶段,这套面向真实商用场景的解决方案,不仅回应了行业对稳定交互的迫切需求,也进一步凸显了平台在多模态 AI 领域的深耕成果。

如何让数字人视频在流式实时推理下做到小时级甚至无限长度、同时保持身份一致/细节稳定/口型精准?此次开源的SoulX-LiveAct能够在 2 张 H100/H200 条件下,达到 20 FPS 的实时流式推理能力,且支持输入图像、音频和指令驱动,生成表情生动、情绪可控、拥有丰富全身动作的实时数字人视频。通过不断开源不同技术路线的模型,Soul AI团队为开源社区及行业提供了差异化的实时数字人方案,覆盖各种硬件条件、不同应用落地的开发者实际需求。
• Project Page: https://soul-ailab.github.io/soulx-liveact/ • Technical Report: https://arxiv.org/abs/2603.11746 • Source Code: https://github.com/Soul-AILab/SoulX-LiveAct • Hugging Face: https://huggingface.co/Soul-AILab/LiveAct
SoulX-LiveAct 三大亮点
1) 恒定显存:真正支持无限时长生成
过去的 AR diffusion 往往依赖 KV cache 记忆历史信息,但缓存会随视频长度线性增长——视频一长,不是爆显存,就是不得不丢历史,稳定性随之崩掉。SoulX-LiveAct 从“条件传播方式”和“历史记忆管理”两个层面解决了这一瓶颈,创新机制使系统既能“带得动”长时历史,又不会因缓存膨胀而拖慢推理,从而在机制上具备小时级甚至更长时长的持续生成能力。
2) 实时吞吐:2 张 H100/H200 即可 20 FPS 流式推理
在 512×512 分辨率下,SoulX-LiveAct 仅需 2 张 H100/H200 即可达到 20 FPS 的实时流式推理能力,端到端延迟约 0.94s。同时,单帧计算成本降低到 27.2 TFLOPs / frame,在追求实时的条件下显著减轻算力压力,为线上部署提供更现实的成本方案。
3) 长时一致:身份稳定 + 细节不“掉件”
长视频最容易“翻车”的不是第一分钟,而是第十分钟、第三十分钟:常见现象包括脸漂、发型/衣纹漂移、饰品忽隐忽现,甚至口型逐步失配。在报告的长时对比中,基线方法普遍出现不同程度的身份漂移与细节不稳定;而 SoulX-LiveAct 能在更长时间窗口内保持身份一致性与关键细节持续稳定(如配饰与衣物纹理不“掉件”)。
依托模型表现,SoulX-LiveAct 将能够在“长期在线”数字人直播间、AI教育、智慧柜员、知识付费、播客录制、开放世界互动等方向快速落地,例如,在线开放世界的NPC互动中,要求“说得像、动得像、一直像”,SoulX-LiveAct 在全身数据集 EMTD 上的同步与质量指标领先,并支持实时流式推理,适合在数字空间里实现长时间在线的、具备情绪动作表达的角色交互。
今年,在实时数字人生成方向,Soul AI 团队已陆续开源了SoulX-FlashTalk、SoulX-FlashHead,前者是首个能够实现0.87s亚秒级超低延时、32fps高帧率,并支持超长视频稳定生成的14B数字人模型;后者是1.3B轻量化模型,可实现在单张消费级显卡( RTX 4090 )上跑出96FPS的工业级速度。
除了实时数字人生成方向的SoulX-FlashTalk、SoulX-FlashHead、SoulX-LiveAct ,现阶段,Soul AI团队还开源了播客语音合成模型SoulX-Podcast、歌声合成模型 SoulX-Singer、全双工语音对话控制模块SoulX-Duplug,综合来看,团队围绕“实时交互”这一核心领域,在多模态方向不断夯实技术基建,同时通过工程化部署方案将技术推向可真正工业级应用阶段。
而坚持开源方向,Soul不仅完成了自身AI基础设施的持续升级,还通过携手全球开发者,持续拓展“AI+”的新落地场景,共同推动AI应用生态的建设。

从解决身份漂移、细节丢失到实现低成本实时推理,SoulX-LiveAct 以工程化思维补齐了长时数字人交互的关键短板。在 Soul 上市推进过程中,平台持续将前沿 AI 技术转化为可落地、可复用的行业方案,既体现了扎实的技术积累,也为 Soul IPO 构建了差异化的技术壁垒。依托完整的实时交互模型矩阵,Soul 以务实的技术落地能力,为数字人规模化商用提供了稳定可靠的支撑。
免责声明:市场有风险,选择需谨慎!此文仅供参考,不作买卖依据。
责任编辑:kj015