位置: 首页 > 新闻 列表  >  评测资讯 >> 评测资讯

国内首个大模型可信能力评测排行榜发布,阿里巴巴Qwen2-72b、百度Ernie-4.0等上榜

国内首个大模型可信能力评测排行榜发布,阿里巴巴Qwen2-72b、百度Ernie-4.0等上榜近日,“大湾区生成式人工智能安全发展联合实验室”全国首发“大模型可信能力评测排行榜”,阿里巴巴“Qwen2-72b”、百度“Ernie-4.0”等一批知名企业的大模型上榜。此次评测是国内首个对标《人工智能安全治理框架》1.0版的评测体系,旨在为中国及全球AI技术的安全、可靠和可持续发展提供指引

国内首个大模型可信能力评测排行榜发布阿里巴巴Qwen2-72b、百度Ernie-4.0等上榜

近日,“大湾区生成式人工智能安全发展联合实验室”全国首发“大模型可信能力评测排行榜”,阿里巴巴“Qwen2-72b”、百度“Ernie-4.0”等一批知名企业的大模型上榜。此次评测是国内首个对标《人工智能安全治理框架》1.0版的评测体系,旨在为中国及全球AI技术的安全、可靠和可持续发展提供指引。

 国内首个大模型可信能力评测排行榜发布,阿里巴巴Qwen2-72b、百度Ernie-4.0等上榜

“大湾区生成式人工智能安全发展联合实验室”(简称“联合实验室”)根据《人工智能安全治理框架》1.0版(简称《框架》)的原则,以及技术和治理两方面的防范措施,研究制定了国内首款对标《框架》的大模型安全可信及量化评级测评体系。该体系结合《生成式人工智能服务管理暂行办法》和《生成式人工智能服务安全基本要求》,重点从价值对齐、安全可控和能力可靠三个主要方向和13个细分维度,对模型的生成内容及行为进行全面评估。

 国内首个大模型可信能力评测排行榜发布,阿里巴巴Qwen2-72b、百度Ernie-4.0等上榜

全国率先发布“大模型可信能力评测排行榜”

 国内首个大模型可信能力评测排行榜发布,阿里巴巴Qwen2-72b、百度Ernie-4.0等上榜

“联合实验室”选取了国内外22个最新大模型作为评测对象,包括17个国内模型和5个国外模型(华为、腾讯作为“联合实验室”联合建设单位,其模型不参与评测),按照13个维度的评测体系进行了全面客观评测。评测数据集超过3.4万条数据,支持中文和英文两种语言,最终形成了“大模型可信能力评测排行榜”。

 国内首个大模型可信能力评测排行榜发布,阿里巴巴Qwen2-72b、百度Ernie-4.0等上榜

国内大模型可信评测榜单

 国内首个大模型可信能力评测排行榜发布,阿里巴巴Qwen2-72b、百度Ernie-4.0等上榜

(此处应列出国内大模型可信评测榜单,具体内容需根据实际数据进行填写。)

 国内首个大模型可信能力评测排行榜发布,阿里巴巴Qwen2-72b、百度Ernie-4.0等上榜

国外大模型可信评测榜单

 国内首个大模型可信能力评测排行榜发布,阿里巴巴Qwen2-72b、百度Ernie-4.0等上榜

(此处应列出国外大模型可信评测榜单,具体内容需根据实际数据进行填写。)

 国内首个大模型可信能力评测排行榜发布,阿里巴巴Qwen2-72b、百度Ernie-4.0等上榜

评测结果显示,国内大模型在可信能力评测中展现了较强的竞争力,顶尖模型在各可信维度上的差距较小,其中88.2%的模型在整体13个可信维度中达到了10A及以上水平。

 国内首个大模型可信能力评测排行榜发布,阿里巴巴Qwen2-72b、百度Ernie-4.0等上榜

整体来看,国内大模型在可信能力上表现突出,尤其在价值对齐和安全可控方面,反映出国内技术的稳步提升以及对政策和法规的高度适应性。

 国内首个大模型可信能力评测排行榜发布,阿里巴巴Qwen2-72b、百度Ernie-4.0等上榜

例如,在价值对齐的五个维度中,17个模型中的16个至少达到了4A水平(94.1%),但仅有4个模型达到了5A水平(23.5%),表明仍有进一步优化的空间。在安全可控维度的四个分项中,3个模型达到3A,其余14个达4A,占比82.4%。

然而,评测结果也揭示了一些不足,尤其是在能力可靠性的四个维度上,模型评级从1A到4A不等,仅有29.4%的模型达到了4A。这主要是由基座模型能力的差异引起的,表明模型在基础能力、一致性和稳定性方面仍有提升空间。此外,开源大模型Llama-3.1在价值对齐、安全可控等可信能力方面与领先的闭源大模型相比,仍存在显著差距,需要进一步优化。

价值对齐评测结果

(此处应列出价值对齐评测结果,具体内容需根据实际数据进行填写。)

安全可控评测结果

(此处应列出安全可控评测结果,具体内容需根据实际数据进行填写。)

能力可靠评测结果

(此处应列出能力可靠评测结果,具体内容需根据实际数据进行填写。)

“大湾区生成式人工智能安全发展联合实验室”介绍

“大湾区生成式人工智能安全发展联合实验室”由中共广东省委网信办和国家互联网应急中心广东分中心联合牵头发起,华为公司、腾讯公司、中山大学、广州市委网信办、深圳市委网信办、东莞市委网信办以及深圳河套发展署共同参与建设。

“联合实验室”致力于人工智能潜在风险的评测研判、前瞻预防和约束引导研究,为人工智能可靠、可控、安全发展探索治理范式,积极服务生成式人工智能创新发展,有力支撑人工智能时代的网络综合治理体系建设,共同促进人工智能“以人为本、向善而行”,努力以高水平的安全助力数字经济更高质量发展。

(作者:南方网、粤学习记者何敏辉)