中华网家电

设为书签Ctrl+D将本页面保存为书签,全面了解最新资讯,方便快捷。
业 界/ 互联网/ 行 业/ 通 信/ 数 码/ 手 机/ 平 板/ 笔记本/ 相 机
当前位置:频道首页 >产业 > 正文

MedBench最新评测:山海大模型医疗专业能力全球第一,各项指标力压GPT-4

MedBench最新评测:山海大模型医疗专业能力全球第一,各项指标力压GPT-4
2024-06-13 09:35:10 来源:中国创投网

近日,由上海AI实验室和上海市数字医学创新中心联合推出的MedBench评测更新榜单,继4月份夺冠后,云知声山海大模型医疗行业版(UniGPT-Med)再次以综合得分82.2的优异成绩位列全球第一,各项指标全面超越GPT-4,充分展现出山海大模型在拥有业内一流的通用能力之外,更具备打造世界领先的行业大模型的能力。

https://img2.danews.cc/upload/images/20240612/f91e847c82f3fe657a61044089772161.png

MedBench致力于打造一个科学、公平且严谨的中文医疗大模型评测体系及开放平台,其基于医学权威标准,不断更新维护高质量的医学数据集,全方位多维度量化模型在各个医学维度的能力。

MedBench的五大评测维度——医学语言理解、医学语言生成、医学知识问答、复杂医学推理、医疗安全和伦理,构成了其专业评测框架的核心。这一框架吸纳了海量医学知识库和医院医学专家的丰富经验,涵盖8个公开数据集和12个自建数据集,总计约30万道中文医疗专业测评题目,覆盖了从医学考试题库到患者服务、医学问诊、病例分析以及病历生成等广泛的医学任务,致力为中文医疗大模型提供客观科学的性能评测参考。

今年5月,MedBench平台全面升级,不仅引入API评测方式,丰富了参评途径,还优化了开放域问答的评估指标。通过医学专家的精准标注,平台进一步提升了评测结果的公正性和专业性。同时,平台在数据集、评测方法和系统功能等方面也进行了升级,旨在为医疗大模型评测构建一个更加完善社区环境,并提供更加丰富、真实的实践场景。

此次评测,云知声山海大模型医疗行业版(UniGPT-Med)通过API提交方式,不仅以82.2的综合得分刷新了MedBench评测记录,更是在各个维度上力压GPT-4,排名全球第一。这一成绩的取得,是山海大模型医疗专业能力的集中展现,也标志着其技术迭代和创新发展达到了一个新的高度。

目前,山海大模型通用能力已超越GPT-3.5,并在SuperCLUE 4月评测中跻身国内大模型Top10;与GPT-4的对战中,山海综合胜率与和率为75.55%。

在医疗专业能力上,山海大模型于2023年6月的MedQA任务中超越Med-PaLM 2,取得87.1%的优异成绩;在临床执业医师资格考试中以523分(总分600分)的优异成绩,超过99%的考生水平;其基于山海大模型孵化的医疗行业版大模型,也在CCKS 2023 PromptCBLUE医疗大模型评测中夺得通用赛道一等奖。

随着医疗行业对智能化、精准化服务需求的不断增长,云知声山海大模型医疗行业版(UniGPT-Med)有望在医疗健康领域扮演更加关键的角色,为提升医疗服务效率、优化患者体验、推动医疗科技进步提供强有力的支持。

免责声明:市场有风险,选择需谨慎!此文仅供参考,不作买卖依据。

责任编辑:kj005

文章投诉热线:182 3641 3660  投诉邮箱:7983347 16@qq.com
关键词:

向凌云受聘为多民族玻利维亚国金融经济顾问

2024-06-03 09:28:39向凌云受聘为多民族玻利维亚国金融经济顾问

2024爱企查毕业季校园行:构建诚信就业市场,为成电、广大学子保驾护航

2024-05-31 19:02:332024爱企查毕业季校园行:构建诚信就业市场,为成电、广大学子保驾护航

全屋净水需求迸发,国内品牌净水器排名榜之一的立升值得信赖

2024-05-24 09:34:34全屋净水需求迸发,国内品牌净水器排名榜之一的立升值得信赖

家电以旧换新热潮喷涌,哪一款净水器比较好,值得入手?

2024-05-22 15:14:03家电以旧换新热潮喷涌,哪一款净水器比较好,值得入手?

黑鲨新品引爆2024 ChinaJoy!游戏玩家专属神器,让你征服对手!

2024-05-22 10:34:18黑鲨新品引爆2024 ChinaJoy!游戏玩家专属神器,让你征服对手!

网易免费送清华校友VIP邮箱 终生拥有清华专属账号名

2024-05-16 11:06:04网易免费送清华校友VIP邮箱 终生拥有清华专属账号名

相关新闻