解耦存储调用、压缩无效推理Token，解密U2小参数碾压大模型底层逻辑

2026-06-23 17:15:07 来源：实况网

小大

为什么一个激活参数仅为10B规模的模型，能完成许多百亿、千亿模型都做不好的任务？如果沿用过去三年的逻辑，这几乎是不可能发生的事情。因为行业默认更多参数意味着更多知识，更长推理链才能实现更强能力。而云知声近日发布的U2恰恰走了一条相反的路。相比生成更多Token，它更关心每一个Token是否真正创造价值；相比堆积更多参数，它更关注单位参数究竟承载了多少有效知识。

云知声提出“高智能密度×高Token价值”

要实现这一目标，首先要解决的是模型架构问题。传统稠密模型往往依赖不断扩张参数规模提升能力，而U2从设计之初便采用了稀疏MoE架构。每次推理过程中，模型只激活完成当前任务所需的专家网络，而不是调动全部参数参与计算。知识存储与知识调用被有效解耦，使模型能够在更小的激活参数规模下维持顶级任务能力。

当然，这些仅仅依靠更高效的架构还远远不够，这就要从根本上解决“思考”的问题。今天许多推理模型都存在一个共同问题：为了得到正确答案，会生成极长的思维链。模型看起来思考得很认真，但大量Token实际上消耗在中间过程，而不是最终结果上。

U2则采用了隐式思考机制。传统模型需要将每一步推理都转化为自然语言Token，而U2能够直接在连续隐空间中完成大量中间推理，仅在关键决策节点切换回显式推理进行验证。简单理解为，就是先在内部完成大规模探索，再将真正有价值的推理结果呈现出来。

云知声大模型事业部总经理举了一个医疗场景的例子。一份病历生成任务，传统模型往往需要输出2000至3000个Token，而采用隐式思考技术后，U2能够将输出压缩到1000个Token以内，同时保持结果质量。

对于用户来说，看到的变化很直接，就是更少的Token消耗、更快的响应速度，以及更低的推理成本。

真正决定Agent能力上限的，并不是思考而是执行

今天很多Agent仍然依赖大量外部工作流和规则系统完成任务规划、工具调用和过程控制。而U2选择尽可能将规划、执行、记忆、校验和纠错能力训练到模型内部。为此，云知声将模型原生Agent能力的提升与Harness的迭代优化纳入同一训练闭环，形成双向强化的协同演进机制。此外，云知声通过课程学习的核心直觉模拟了人类学习规律，并基于过程奖励信号识别出无效动作的同时，又能奖励“看似迂回但开辟关键路径”的高价值探索。

因此，在金融研究、办公自动化和软件开发等复杂场景中，U2往往能够以更少轮次完成任务。当许多模型还在不断确认下一步应该做什么时，U2已经开始主动拆解任务、调用工具并推进执行。

如果说过去的大模型在追求“更多参数、更多Token”，那么U2追求的只有一件事，就是让每一个激活参数承载更多知识，让每一个生成Token创造更多价值。这看似只是技术路线的不同，背后却代表着AI行业正在从参数竞赛走向价值竞赛。

免责声明：市场有风险，选择需谨慎！此文仅供参考，不作买卖依据。

责任编辑：kj015

文章投诉热线:157 3889 8464 投诉邮箱:7983347 16@qq.com

关键词：

华为智能门锁M2更新鸿蒙6.1：三大升级指纹解锁更快

5月中国电视销量大幅下滑均价反而涨了500多元

中国电视5月零售销量同比下滑22.7% 大屏、Mini LED逆势走强

摩尔线程MTT AICUBE“家庭AI中枢”预售，9999元起

中华网家电

解耦存储调用、压缩无效推理Token，解密U2小参数碾压大模型底层逻辑

美元霸权现状、困境与去美元化多元趋势的深度报告

与市场共成长：ATFX柬埔寨一周年暨新办事处盛大开业

CMA高分奖和优惠延期决定公布

临床核心急救药物再探：注射用硝普钠药理价值与安全应用体系解析

WEEX Labs 周度观察：安全合规下的“硬核”新周期

成都暑期儿童肥胖体重管理西南儿童医院生长发育科系统化评估

相关资讯

第七届深圳国际人工智能展直击珞石专访！揭秘国产机器人硬核核心竞争力到底在哪