近日,声麦信息科技在上海对外发布其自主研发的私有多模态 AI 大模型 Srnt V2。该模型面向实体商业与公共空间等复杂现实场景,重点提供多模态感知与自动化决策能力,并已基于该模型推进多类商业智慧系统的集成与落地。
Srnt V2:从“生成式 AI”走向“场景决策型 AI”
与当前主流以通用对话和文本生成为核心的大语言模型不同,Srnt V2 的定位更加明确——服务现实世界场景的理解与决策。以 Vision Transformer 为核心视觉编码架构,并结合 MAE 等自监督预训练方法,用于提升视觉表征能力,在此基础上构建多模态理解与决策模型体系。
从技术表现来看,Srnt V2 在多项典型多模态任务中展现出领先的泛化能力,包括:
视觉问答(VQA)、图像内容描述、视觉对话等任务,能够适应非标准化、动态变化的现实环境;
多语言场景下的视觉 + 文本联合理解,适合跨语言商业环境及多语言公共空间的图像理解与分析应用;
模型能力更侧重于“理解—推理—决策”链路输出,为业务系统提供结构化分析结果与决策建议,而非单纯生成自然语言内容。
在声麦的产品定位中,Srnt V2 并不是一个直接面向终端用户的应用,而是作为底层 AI 能力,为上层商业智慧系统提供统一的多模态决策引擎。
基于 Srnt V2 的商业智慧系统正在落地
围绕 Srnt V2,声麦已经推进多类商业智慧系统的系统化集成。这些系统并非简单调用模型接口,而是将多模态感知与决策能力嵌入到具体业务流程中,用于解决实际运营和治理问题。
目前已落地或试点的应用方向包括:
商业综合体与连锁门店运营系统
通过对客流行为、交易数据与空间状态的综合分析,辅助商场进行动线优化、业态调整,并支持坪效与营业额的评估和优化,深入商业决策流程,提供自动化管理决策树。
人流聚集与安全风险监测系统
基于视觉分析能力,对人流密度异常聚集、行为异常等情况进行实时识别,为现场管理提供预警和调度决策支持。
安全态势感知与智能预警系统
结合图像识别与环境传感数据,对烟雾、火焰、消防通道占用等风险进行提前识别和提示。
市政公共活动空间综合治理系统
面向市民中心等公共空间,支持人流管理、环境监测及应急响应的智能化决策。
上述应用共同构成了“Srnt V2 多模态大模型 + 商业智慧系统”的整体方案。
杭州、上海试点运行,验证真实场景价值
目前,基于 Srnt V2 的相关系统已在杭州、上海的多个连锁门店与商业综合体中开展试点运行。试点阶段主要围绕商业运营支持与空间管理等能力进行验证。
从试点情况来看,相关系统在提升运营响应效率、优化空间利用以及强化现场安全管理等方面,已展现出有效的实际应用价值。声麦方面表示,后续将在总结试点经验的基础上,逐步将相关方案推广至全国更多商业综合体和公共空间场景。
让 AI 真正参与商业与空间决策
声麦信息科技创始人朱子丹表示,未来公司将持续围绕 Srnt V2 推进模型能力演进与系统化落地,并在研发过程中引入更多具备国际化背景和跨文化经验的技术力量,
重点提升多模态感知精度、跨场景泛化能力以及与商业流程的深度融合。
面向未来,他强调 Srnt V2 是公司室内机器人与具身智能(embodied intelligence)的发展第一步。模型未来不仅需要“看懂”环境,更要能够“与环境互动”的趋势下,单一的感知模型已难以满足实际需求。Srnt V2 的多模态理解与决策能力,结合动态空间感知与实时推理,在未来也将为机器人在复杂室内场景的服务能力打下坚实基础。
他认为,AI 在商业领域的价值不应停留在“生成内容”,而应更多参与到真实世界的判断与决策中。“Srnt V2 更像是一套面向现实场景的决策型 AI 能力,我们希望它能够成为商业运营和公共空间管理中的基础智能组件。”
责任编辑:kj015