9月26日,国内人工智能威望机构清华大学根底模型研究中心发布SuperBench九月归纳榜单。本次评测选取海内外24个有代表性的大模型,成果显现,山海大模型对齐、智能体、安全等多项才干全球领跑。
作为国内威望通用大模型归纳性测评基准,SuperBench由清华大学人工智能研究院根底模型研究中心联合中国人民大学、中关村实验室一起建议,旨在为大模型范畴供给一套客观、科学的评测规范,促进大模型技能、运用和生态健康开展。
此次SuperBench评测数据集包含语义、对齐、代码、智能体、安全、数理逻辑和指令遵从,共包含七大类,32个子类。评测数据显现:
在人类对齐才干评测中,山海大模型3.0得分8.21分,排名全球第五、国内第 二。其间,山海大模型在中文言语方面的体现极为超卓,以8.41分的成果与o1-preview并排全球第 二。在中文言语细分项中,山海大模型在基本任务、归纳问答、文本写作3项分类评测中均跻身Top3,并在文本写作评测中荣获第 一。
在智能体才干评测中,山海大模型3.0得分3.44分,排名全球第七、国内第五。其间,山海大模型在网络购物方面的体现超越70分,位列全球第 二,比照国外模型*优势显着。
在安全和价值观才干评测中,山海大模型3.0得分89.4分,位居全球第 二。其间,山海大模型在伦理道德、进犯得罪、身体健康、隐私工业四个细分评测项中均位列三甲,并在身体健康和隐私工业评测中取得第 一。
自2023年5月面世以来,山海大模型已相继在OpenCompass大模型评测、SuperCLUE中文大模型基准测评、MedBench评测、Flageval大模型评测等多个威望评测中屡创佳绩,充沛体现出业界一流的通用才干和*于国际的职业大模型才干。
此次评测,是山海大模型归纳才干的又一次会集展示,也标志着其技能迭代和立异开展达到了一个新的高度。
大模型有必要结合实际场景才干真实发明价值。作为大模型工业化落地的先行者,云知声也在活跃推进山海大模型与详细职业场景的深度结合,将理论中的技能立异转化为新质出产力,为各行各业带来史无前例的功率提高和价值发明。
现在,山海大模型已在才智医疗、才智座舱、才智交通、才智营销、才智政务、才智司法等场景完成落地运用。
在才智医疗范畴,云知声根据山海大模型,打造门诊病历生成体系、手术病历编撰帮手、商保智能理赔体系等医疗产品,专心医疗服务提质增效,为患者带来更优质均衡的医疗体会。例如,针对门诊场景中的病历编撰需求,门诊病历生成体系可完成诊室杂乱环境下的降噪、医患角分、信息摘要及病历自动生成等功能,有用提高病历书写功率,切实为医务人员减负。现在,门诊病历生成体系已在北京友谊医院上线运用,得到院方的高度认可和一起好评。
在才智座舱范畴,云知声依托山海大模型重构语音辨认、语义了解、语音组成的全链路语音计划,根据大模型的了解与生成才干,赋能用车、出游、自动关心、健康、通用聊天等多个细分场景,让座舱体会从简略的语音交互迈向全面智能的个性化交互。
在才智交通范畴,云知声以山海大模型为中心,数据和立异为两大引擎,云知声构建起掩盖轨道交通、公交交通、航空交通、交通枢纽、路途交互与通行等多个细分场景的才智大交通全景图,全方位、多维度赋能交通工业,驱动城市交通向智能化、高效化方向跨进。现在,包含厦门高崎机场数智客服、厦门地铁智能客服体系、南宁火车东站才智客服屏、青岛全息屏智能交互服务终端等在内的多款交通立异运用已投入到正常的运用中,一起引领未来交通出行新体会。
在才智营销范畴,云知声根据山海大模型,交融堆集多年的智能语音技能,打造蓝藻AI内容创造渠道,为用户更好的供给AI声响克隆、AI文字配音、AI案牍创造、AI智播等服务,助力内容出产更快,更好,更具个性化,打造内容营销新质出产力。
跟着技能提高和运用场景的不断拓宽,未来大模型商场之间的竞赛将继续加重,逐渐推进技能立异和工业晋级。接下来,云知声将继续坚持大模型才干稳步提高,以山海为抓手,在工业侧完成加快落地,引领千行百业向更智能、更高效、更可继续的方向开展。