山海新升级：OpenCompass大模型评测全球厂商排名第六，多项能力超越GPT-4

2024-04-10 11:44:45 来源：中国创投网

小大

近日，山海大模型完成新一轮迭代升级，并在最新的OpenCompass大模型评测中取得综合性中英文双语客观评测得分53.6、综合性中文主观评测得分42.2的优异成绩，在参与测评的全球大模型厂商中排名第六。评测结果显示，其在中英文双语客观评测中的语言、知识、推理能力，在综合性中文主观评测中的创作能力已超越GPT-4。

综合性中英文双语客观评测排名

综合性中文主观评测排名

作为上海人工智能实验室开源的大模型评测体系，OpenCompass致力于探索最先进的语言与视觉模型，为工业界和研究社区提供全面、客观、中立的评测参考，从而根据不同能力维度的评测分数指导大模型的优化与进步。

OpenCompass 月度榜单从基础能力和综合能力的设计出发，构造了一套高质量的中英文双语评测基准，涵盖语言与理解、常识与逻辑推理、数学计算与应用、多编程语言代码能力、智能体、创作与对话六个方面二十余项细分任务，力图对近期的主流开源模型和商业 API 模型进行全面评测分析。

此次榜单囊括了国内外 40 个大语言模型，评测数据集采用中英文闭源数据集，包括综合性中文主观评测和综合性中英文双语客观评测。云知声山海大模型综合性中英文双语客观评测得分53.6，综合性中文主观评测得分42.2，排名国产大模型厂商第四、全球大模型厂商第六。从各项数据看，其在语言、知识、推理、创作等方面表现优异，显现出强劲的综合实力。

综合性中英文双语客观评测得分

综合性中文主观评测得分

而山海大模型之所以能够在众多大模型中脱颖而出，得益于其在技术上的一系列创新和优化——在本次大模型升级中，云知声引入了自我演进偏好学习技术，使得大模型能够通过自我对弈微调（SPIN）实现自我提升。在高质量数据生成方面，云知声结合RLHF和RLAIF方法，生成大量偏好数据，并采用k-Center Greedy算法确保数据的多样性和覆盖度。此外，云知声还建立了一个全面的自动化评测体系，以此实现对模型效果的快速评测，进而支持大模型的迭代和优化。

自2023年5月发布以来，山海大模型始终保持高速迭代，其在C-Eval全球大模型综合性评测、CCKS 2023医疗大模型评测等权威赛事上屡获佳绩，展现出全面的通用能力和卓越的专业能力，成功跻身大模型第一梯队。此次评测，是山海大模型出色实力的又一次印证，也将鞭策其继续加速迭代，持续引领大模型研发与落地。

作为中国AGI技术产业化的先行者，云知声于2016年开始打造Atlas人工智能基础设施，并以此为基础，构建云知大脑(UniBrain)技术中台——以山海（UniGPT）通用认知大模型为核心，结合多模态感知与生成、知识图谱、物联平台等智能组件，为云知声智慧物联、智慧医疗、智慧交通等业务提供高效的产品化支撑，持续推动“U(云知大脑)+X(应用场景)”战略布局。

云知声全栈AGI技术与产业化布局

山海大模型作为云知大脑的核心，其能力体系涵盖语言生成、语言理解、知识问答、逻辑推理、代码能力、数学能力等。此外，为提高大模型在具体场景的应用落地水平，山海大模型在通用能力基础上，增强物联、医疗、交通等行业能力，致力为客户提供更智能、更灵活的解决方案，加速千行百业的智慧化升级。

目前，云知声正依托山海大模型技术能力的加速迭代，逐步深入到智慧医疗、智慧座舱、智慧轨交、智慧政务等具体场景，不断释放AGI的更多可能。

在智慧医疗领域，云知声基于山海大模型打造的门诊病历生成系统已落地北京友谊医院，有效提升了病历撰写效率与质量；在智慧政务领域，云知声率先开发出深圳首个政务大模型“龙知政”,全场景赋能提升政府治理水平；在智慧座舱领域,云知声通过山海大模型赋能吉利睿蓝汽车打造情感型虚拟助手,为用户带来全车全场景的情感化智能交互体验；在智慧轨交场景,云知声山海大模型“入驻”南宁火车东站,打造更具人性化的智能客服,助力实现换乘节点无缝高效换乘,为乘客带来更快捷、更便利的出行体验，相关案例也于近期被央视《焦点访谈》栏目报道。

随着大模型技术的不断进步和创新，我们有理由相信，世界将变得更加智能和互联。我们期待，山海大模型能够实现更多新的突破，开辟更广更深的技术边界，拓展更多尚未触及的应用场景。

责任编辑：kj005

文章投诉热线:182 3641 3660 投诉邮箱:7983347 16@qq.com

关键词：

洗碗机爆发在即国产品牌逐渐成为市场主流

金融科技下，金融企业如何保障信息安全

主播雨化田们再接新活，这次让网友们下载的是交管12123APP

深圳看到科技发布Kandao Meeting S 180°超广角智能视频会议机

中华网家电

山海新升级：OpenCompass大模型评测全球厂商排名第六，多项能力超越GPT-4

第89届中国国际医疗器械博览会即将揭幕，东吉联参展

“极视听·强赋能” 第十一届中国网络视听大会在成都开幕

吉野家x吉尼斯纪录营销“出圈”，品牌年轻化玩6了

巧用智慧，秀出别样人生——何裕民教授《智慧治癌》交流分享会

各地春风行动高质高效开展，即刻职达千场招聘会送岗到身边

明智之选：圣奥揭秘灵活办公家具为何更具吸引力

相关新闻

山海新升级：OpenCompass大模型评测全球厂商排名第六，多项能力超越GPT-4

珠海金湾用地价格新热点：企业布局决策的重要考量

光科全息弧形画框幕，更具沉浸感的投影显示

多米尼克现任总理罗斯福·斯凯里特会见

江苏嘉乐控股集团有限公司获得天使轮融资2700万

以科技创新引领行业发展，雅迪电动车积极发展“新质生产力”

重塑中国智造出海话语权：雅迪颠覆式创新定义“新出海”

美辰物流入评“优秀FBA物流服务商”企业全国前50

每日互动方毅再录央视《对话》，共话新时代促进民营经济发展壮大

联储证券星云杯私募大赛：挖掘优秀私募管理人，助力行业发展

家电推荐

家电图片

中国整形美容协会医疗救助与修复基金南通市指定医院落户俪人连天美

林芝第二十一届桃花节盛大开幕，全景式文旅升级擦亮“青春林芝”品牌名片

宝山区大场城家公寓迎开业！一张床、一间房，温暖城市建设者

精雕美眼私人定制，朱迪教授坐诊南通俪人

新闻排行

从“小树苗”到“大森林” 成都...

探索新赛道哪个领域能成为家电...

2021年全球TV出货下降6.2% 面板...

巨头争相布局全屋智能市场向AI...

Mini LED市场不及预期产业陷...

海南省市场监管局抽查10批次快热...

智能化开辟产品创新边界智能坐...

中国制造主导高端冰箱进入新一...

苹果或正开发Apple Music新功能...

欧洲智能手机2021年“现状”：三...