
4月30日,杭州德适生物科技股份有限公司(2526.HK,简称“德适”)在香港认真发布医疗AI评测平台DoctorBench,并同步揭晓首期大众医疗大模子排名榜。杭州智诊科技的WiseDiag-v2、谷歌的Gemini-3.1-Pro-Preview以及OpenAI的GPT-5.4分列前三名。德适示意,该平台初次将“临床实战智商”开拓为中枢标尺,为大众医疗大模子构建起一套逼近确凿调理场景的多维评测体系。

现时,医疗大模子加快从实验室走向临床欺诈,但行业永恒空乏能确凿斟酌模子“看病智商”的评测尺度。现存评测多聚焦于医学学问问答,难以响应模子在复杂临床情境中的概括推崇,评测与临床现实之间的领域正成为医疗AI落地的迫切羁系。
此前,OpenAI发布HealthBench,标记着跳动企业运转爱好这一挑战。相干词,医疗具有浓烈的原土化特征——不同国度和地区的调理指南、讲话习尚、患者群体存在显耀各异,LOL比赛下注2026中国官网入口任何单一评测体系王人难以终了大众普适。
基于此,德适积存基础医学、临床医学、东说念主工智能和医疗产业等多领域众人,历时近十年打造DoctorBench平台。其核激情念是探员大模子“像医师一样想考”的临床一样与有蓄意智商,而非单纯测验“学问储备”。平台竖立三大榜单体系——医学主榜单(LLM)、多模态榜单(VLM)与智能体榜单(Agent),隔离评测模子的文本调理智商、多模态调和智商,以及模拟调理环境中的多轮有蓄意与用具调用智商。

在评测机制上,博亚boya(中国)DoctorBench开创了“2大中枢维度+3项通用维度+5项专项模块”的多维架构,涵盖安全性与准确性两大中枢,辅以交互质料、信息优先级、主动筹商三项通用维度,并细分为凭证与援用、可解说推理、可推行性、个体化适配、心思补助等专项模块。同期,平台搭载“场景自稳当权重”,根据不同临床场景的风险品级动态颐养各维度权重,使评分逻辑愈加贴合确凿调理有蓄意。
尤为关节的是,平台将医学事实准确与安全风险抑制设为具有“一票否决权”的中枢红线:一朝模子在触及患者安全的关节问题上出现严重偏差,不管其他维度推崇若何超越,王人无法得回高分。

德适创举东说念主宋宁博士示意,医疗AI的发展是一场关乎东说念主类共同健康福祉的长跑,既需要颠覆式的技巧翻新与跨学科、跨地域的深度合营,更需要对生命健康的十足敬畏与信守。他期待与大众更多科研机构、临床中心和行业伙伴联袂,让确凿有实力的技巧被看见、被信托,最终惠及每一位患者。
公开资料透露,德适生物于2016年9月由宋宁在杭州创立,2026年3月30日在港交所主板上市,是一家专注于医学影像AI与智能医疗器械研发的医疗器械企业。杭州智诊科技有限公司由宋宁在2023年设立,专注医疗AI讲话大模子技巧研发与欺诈。
南边+记者 严慧芳博亚boya(中国)