位置: 首页 > 新闻 列表  >  评测资讯 >> 评测资讯

智源研究院发布100余个大模型评测结果:中文语言模型趋于饱和,但与国际一流水平仍存差距

智源研究院发布100余个大模型评测结果:中文语言模型趋于饱和,但与国际一流水平仍存差距12月19日,智源研究院发布了对国内外100余个开源和商业闭源大模型的评测结果,涵盖语言、视觉语言、文生图、文生视频及语音语言等多个模态。评测结果显示,在针对一般中文场景的开放式问答或生成任务中,语言模型的能力已趋于饱和稳定

智源研究院发布100余个大模型评测结果中文语言模型趋于饱和,但与国际一流水平仍存差距

12月19日,智源研究院发布了对国内外100余个开源和商业闭源大模型的评测结果,涵盖语言、视觉语言、文生图、文生视频及语音语言等多个模态。评测结果显示,在针对一般中文场景的开放式问答或生成任务中,语言模型的能力已趋于饱和稳定。然而,在处理复杂场景任务时,国内头部语言模型与国际一流水平仍存在显著差距。

语言模型评测:国内外模型表现差异显著

智源研究院的语言模型主观评测着重考察模型的中文能力。评测结果显示,在开放式问答和生成任务中,字节跳动Doubao-pro-32k-preview和百度ERNIE4.0Turbo分别以其出色的中文理解和生成能力位居前两名。紧随其后的是OpenAI o1-preview-2024-09-12和Anthropic Claude-3-5-sonnet-20241022,阿里巴巴Qwen-Max-0919则排名第五。

客观评测则采用了不同的评估指标。结果显示,OpenAI o1-mini-2024-09-12和Google Gemini-1.5-pro-latest在客观评测中表现突出,分别占据榜首和第二名。阿里巴巴Qwen-max-0919和字节跳动Doubao-pro-32k-preview紧随其后,位列第三、第四名。Meta Llama-3.3-70B-Instruct则位列前五。 这表明,在不同类型的评估方法下,不同模型的优势有所差异,也反映出当前语言模型评估体系的多样性和复杂性。

文生视频模型:画质提升,但仍存在技术瓶颈

文生视频模型,以Sora为代表,近年来发展迅速,吸引了广泛关注。智源研究院的评测结果显示,过去一年文生视频模型的画质得到显著提升,动态性更强,镜头语言更丰富,场景切换也更加流畅。然而,该类模型仍然存在一些技术瓶颈,例如大幅度动作变形、无法理解物理规律等问题。评测中发现,视频中物体出现突然消失、闪现、相互穿透等现象较为常见。

智源研究院发布100余个大模型评测结果:中文语言模型趋于饱和,但与国际一流水平仍存差距

尽管存在这些不足,文生视频模型的进步仍然令人瞩目。评测结果显示,快手可灵1.5(高品质)、字节跳动即梦P2.0pro、爱诗科技PixVerseV3、MiniMax海螺AI和Pika1.5在本次评测中表现出色,位列前五。这些模型在画面质量、动作流畅度和场景构建方面展现出较强的实力,但要实现真正意义上的逼真和自然,仍需克服技术难题。

文生图模型:中文能力显著提升,但复杂场景仍是挑战

在文生图模型评测方面,智源研究院发现,与今年上半年相比,目前头部模型的中文文字生成能力有了显著提升。大部分参评模型已经能够生成正确的中文文字,这标志着该领域取得了重要进展。然而,文生图模型仍然面临着一些挑战。例如,复杂场景中人物容易变形,难以胜任涉及常识或知识性的推理任务。评测中发现,模型难以处理大于3的数量关系,在需要理解中国文化和古诗词的场景中表现也相对较弱。

尽管存在这些局限性,文生图模型的发展速度仍然令人印象深刻。评测结果显示,腾讯HunyuanImage在本次评测中表现最佳,位列第一。字节跳动Doubaoimagev2.1和Ideogram2.0分别位居第二、第三名。OpenAI DALL·E 3和快手可图紧随其后。这些模型在图像生成质量、细节刻画和风格控制方面展现出较高的水平,但要实现对复杂场景的精准理解和表达,还需要进一步的技术突破。

评测平台及方法:覆盖范围广,方法科学严谨

本次评测依托智源研究院自2023年6月上线的大模型评测平台FlagEval进行。该平台经过多次迭代,目前已覆盖全球800多个开源和闭源模型,包含20多种任务,90多个评测数据集,以及超过200万条评测题目。 智源研究院联合全国10余家高校和机构共同建设了评测方法和工具,确保评测结果的科学性和可靠性。 这种多方合作的模式,也为大模型的评估和发展提供了重要的支撑。

智源研究院发布100余个大模型评测结果:中文语言模型趋于饱和,但与国际一流水平仍存差距

智源研究院的评测结果全面反映了当前大模型技术的发展水平,也指出了未来发展方向。 语言模型在一般中文场景下的表现趋于成熟,但在复杂场景和与国际一流水平的差距仍需进一步缩小。文生视频和文生图模型在画质、细节和中文理解能力方面取得了显著进步,但仍需解决诸如动作变形、物理规律理解、复杂场景处理等技术难题。 未来,大模型的发展将需要关注模型的鲁棒性、泛化能力以及对复杂场景的理解能力,从而推动人工智能技术的持续创新和应用。 这不仅需要技术上的突破,也需要学术界和产业界的共同努力,建立更加完善的评测体系和标准,推动大模型技术朝着更加安全、可靠和可信的方向发展。 此次评测结果的发布,为大模型领域的研究和应用提供了宝贵的参考,也为未来技术发展指明了方向。 持续的评测和改进,将有助于进一步推动大模型技术的进步,并为社会带来更多益处。 未来的研究方向应该集中在解决现有模型的局限性上,例如提升模型对复杂场景和知识的理解能力,以及增强模型的推理和决策能力。 同时,也需要更加关注模型的伦理和安全问题,确保其在应用过程中的可靠性和安全性。 只有在技术突破和伦理规范的共同努力下,大模型技术才能真正发挥其潜力,造福人类社会。

通过本次评测,我们更加清晰地了解了当前大模型技术的发展现状,也对未来发展方向有了更深入的认识。 继续努力,不断改进和完善,才能推动大模型技术朝着更加成熟和完善的方向发展。