在2025年科大讯飞全球1024开发者节的现场,数字人“小飞”正与三人畅聊。TA会听能看,记得住对话人的身份、历史信息并给出贴心提醒,观察细节之后能给出详细的信息介绍与位置导览,甚至一键帮忙订票;TA能说会道,高情商回复既自然又灵动,还能用外语和外国朋友谈天说地。TA还化身为数字人林黛玉,形象清丽、语气惟妙惟肖。
特别是在多人聊天时,“小飞”还能理解和分辨到底是在和自己对话,还是多人之间相互聊天,从而判断是否接话和插话。
这一系列流畅、自然且充满“人情味”的互动,标志着多模态超拟人交互技术已从概念探索迈入可用、好用的新阶段。
这一前沿技术展示的背后,离不开坚实的技术积淀与产业共识的支撑。就在不久前,国际电信联盟(ITU-T SG21)在瑞士日内瓦召开全体会议,由科大讯飞与中国信通院共同参与编辑的两项数字人国际标准——ITU-T F.748.63(基础模型增强的数字人系统框架及通用技术要求)与ITU-T F.748.64(数字人服务平台要求)——顺利通过结项,计划于2026年正式发布。这意味着,推动产业发展的技术实践,正在凝聚成全球公认的规范。
一、技术内核:多模态超拟人交互,让“更懂你”
“小飞”所展现的惊艳体验,源于其在感知、认知与表达三大层面的技术协同突破。
在信息感知层面,系统具备了“耳聪目明”的能力。此次展示的多模态交互系统具备5米0dB远场高噪语音识别能力,在嘈杂环境中也能精准识别,更加贴合真实的使用和交互场景。基于多模态语音增强技术,系统能融合语音、人脸、姿态等信息,结合说话人站位锁定多人对话中的目标,实现音频与说话人的绑定,攻克了多人高噪场景下的识别难题。同时,讯飞创新性地提出说话人引导的注意力增强方案,实现对交互区域的细粒度视觉信息感知,让视觉信息更加准确;进一步提出局部检索增强技术,通过视觉思维链提取局部关键区域,实现远场条件下的局部物体检索增强识别。
在认知与理解层面,数字人开始“读懂心意”。多人交互理解技术融合对话历史、语音活动状态等信息,加强了模型对多人复杂场景的理解能力,更好地把握和用户的交互时机,以及交互意图的精准判断,实现了响应速度和响应质量的平衡,既不“抢答”也不“乱答”。另外,多模态交互系统能够实现分钟级情感解析、深度共情,读懂对话人的真实心绪,回应“心领神会”的默契瞬间。

在表达与输出层面,交互变得更有温度。超拟人数字人能通过多模态前端定位说话人方位,像真人一样能视线跟随看向当前交互的对象,增强交互的真实感;数字人的回复也更加自然、共情,得益于多情感语音合成技术创新性研发了多轮上下文信息建模方案,能够对语音交互中的历史多轮QA音频和文本进行编码、感知对话人的情感变化,再通过语音合成大模型的自适应情感合成能力,让数字人的回复合成声音情绪语气随之变化,给出恰当的情感回应,在声音的自然度、情感表达、节奏停顿等细节上表现更好,尤其是在多轮交互中的效果提升显著。
值得一提的是,此次发布会上首发的个性化记忆能力也加入了超拟人交互系统,通过分层式动态记忆体架构,实现了长短期协同的精准用户记忆。结构化推理方案的设计,确保了模型在个性化任务中进行严谨的逻辑推理;借助强化学习在对齐用户个人偏好上持续优化,实现了从“内容个性化”到“沟通风格个性化”的进化,增强了多模态交互的个性化回复能力。

二、标准筑基:从技术实践到国际规范制定
技术上的领跑为规则制定提供了关键依据。此次科大讯飞能够主导国际标准的制定,离不开它在人工智能领域长期的技术积累和广泛的产品应用。

科大讯飞自主研发的星火大模型为数字人提供了深层的认知理解基础,而在语音、自然语言处理等领域的全栈式AI技术积累,则为实现自然流畅的人机交互奠定了基石。此前,科大讯飞的AI虚拟人交互平台通过了中国信通院人工智能研究所组织的大模型数字人基础能力分级测试,并获得最高等级L5认证,也进一步证明了讯飞AI虚拟人交互平台技术方案的先进性与成熟度。这些扎实且经过市场检验的技术能力,为其参与国际标准讨论与制定提供了重要依据,也将中国的技术实践融入了全球数字人产业发展的蓝图。

三、场景落地:双平台驱动产业智能应用
技术的终极价值在于应用。科大讯飞通过讯飞智作与讯飞AI虚拟人交互平台,将前沿技术转化为可规模落地的产品与服务。
讯飞智作作为一站式虚拟人音视频内容生产平台,不仅提供丰富多元的形象与声音,还支持仅凭一张照片、一句话快速生成专属数字人,目前已构建超10万数字分身,500万的声音复刻,广泛赋能教培、金融、文旅、政企等多个业务领域。
讯飞AI虚拟人交互平台则聚焦全栈式虚拟人多场景应用服务,让数字IP不仅“动起来”,更能“交互起来”。平台支持零代码快速嵌入小程序、导游机等终端,更提供智能交互机、移动数字人、AI 虚拟人直播机等软硬一体化方案,同时通过终端 SDK、服务端 API、公有云 API 及私有化部署等灵活接入方式,可适配 APP、Web、小程序等多种产品形态。

从多模态超拟人交互的技术突破,到参与国际标准制定的能力认证,再到双平台推动的产业赋能,科大讯飞在数字人领域形成了从技术到市场、从实践到标准的闭环。未来,随着“AI+行业”的持续深入,更智能、更自然的数字人有望在更多领域成为人类的智能伙伴。我们也将继续在多模态超拟人交互技术上踏实前行、持续进阶,不断带来新的惊喜。
#讯飞智作 #讯飞AI虚拟人交互平台 #数字人 #多模态超拟人交互 #科大讯飞
责任编辑:kj015
为引领广大团员青年深刻领悟科学家六大精神内涵,激发投身能源强国建设的青春热情,华北电力大学电力工程系2025级硕贯通专业01班团支部于11月23日下午16:10...
依托城乡社区治理优化提升行动创特色项目,为丰富社区儿童课余生活,减少电子产品依赖,搭建交流互动与自我展示的平台,11月1日,依托城乡社区治理优化提升行动创特色项...
近日,既是演员亦是中华文化传承使者王迅在网上分享其体验300年中华老字号王麻子厨刀的使用感受并向网友力荐王麻子,这一事件又让更多的人看到王麻子超越情怀:王麻子的...
依托城乡社区治理优化提升行动创特色项目,迎来了一场由铁佛场社区党群中心主办、成都康和慧民社区服务有限公司承办,别开生面的创特色项目文化传承研学活动活动伊始,工作...
依托城乡社区治理优化提升行动创特色项目,2025年11月1日,依托城乡,社区治理优化提升行动创特色项目,资中县水南镇长山社区党群服务中心热闹非凡,“...