智源研究院发布2024年下半年大模型综合评测结果:多模态模型领跑,国产文生视频技术领先全球2024年12月19日,智源研究院正式发布了对100余个国内外开源和闭源大模型的综合及专项评测结果。本次评测涵盖语言、视觉语言、文生图、文生视频、语音语言等多种模态,并首次引入金融量化交易场景评估和基于模型辩论的对比评估方式,对大模型的综合能力和应用潜力进行了深入细致的分析
智源研究院发布2024年下半年大模型综合评测结果:多模态模型领跑,国产文生视频技术领先全球
2024年12月19日,智源研究院正式发布了对100余个国内外开源和闭源大模型的综合及专项评测结果。本次评测涵盖语言、视觉语言、文生图、文生视频、语音语言等多种模态,并首次引入金融量化交易场景评估和基于模型辩论的对比评估方式,对大模型的综合能力和应用潜力进行了深入细致的分析。评测结果显示,2024年下半年大模型发展呈现出综合能力提升与实际应用并重的趋势,多模态模型发展迅速,涌现出众多新的厂商和模型,而语言模型发展相对放缓。 开源生态也出现了新的贡献者,但头部模型仍主要由国际巨头掌握。
一、 语言模型评测:中文能力成为焦点,头部模型差距显著
针对一般中文场景的开放式问答或生成任务,语言模型的能力已趋于饱和稳定。然而,在复杂场景任务中,国内头部语言模型与国际一流水平仍存在显著差距。
本次评测的主观评测重点考察了模型的中文能力。结果显示,字节跳动Doubao-pro-32k-preview和百度ERNIE4.0Turbo分列前二,OpenAI o1-preview-2024-09-12和Anthropic Claude-3-5-sonnet-20241022紧随其后,阿里巴巴Qwen-Max-0919排名第五。
客观评测方面,OpenAI o1-mini-2024-09-12和Google Gemini-1.5-pro-latest位列前二,阿里巴巴Qwen-max-0919和字节跳动Doubao-pro-32k-preview分列三、四名,Meta Llama-3.3-70B-Instruct也跻身前五。 这些结果表明,虽然在一些常见中文任务上,国内模型表现出色,但在更具挑战性的复杂任务上,与国际领先水平仍有差距。
二、 视觉语言多模态模型评测:开源模型追赶头部闭源模型
尽管开源视觉语言模型的架构大多采用“语言塔+视觉塔”的模式趋于一致,但其性能却差异显著。评测结果显示,在图文理解任务上,一些优秀的开源模型正在缩小与头部闭源模型的差距。然而,在长尾视觉知识、文字识别以及复杂图文数据分析能力方面,仍有较大的提升空间。
OpenAI GPT-4o-2024-11-20和字节跳动Doubao-Pro-Vision-32k-241028在评测中领先于Anthropic Claude-3-5-sonnet-20241022,阿里巴巴Qwen2-VL-72B-Instruct和Google Gemini-1.5-Pro紧随其后。这表明在视觉语言领域,国际巨头和国内头部企业之间的竞争依然激烈。
三、 文生图多模态模型评测:中文能力提升,但复杂场景仍是挑战
与今年上半年相比,本次评测中参与评估的头部文生图模型已经具备了生成正确中文文字的能力,这是一个显著的进步。然而,在处理复杂场景时,模型往往会出现人物变形等问题。 在常识或知识性推理任务中,模型对小于3的数量关系任务处理能力有所提升,但对于大于3的数量关系,以及涉及中国文化和古诗词理解的场景,模型仍然面临挑战。
评测结果显示,腾讯HunyuanImage排名第一,字节跳动Doubaoimagev2.1和Ideogram 2.0分列二、三名,OpenAI DALL·E 3和快手可图紧随其后。 这些结果反映出文生图模型在中文处理能力上的提升,同时也指出了模型在复杂场景和知识推理方面的不足。
四、 文生视频多模态模型评测:画质提升,但物理规律理解仍待突破
文生视频模型的画质和动态性都有了显著提升,镜头语言也更加丰富流畅。然而,模型普遍存在大幅度动作变形、无法理解物理规律、物体消失、闪现和穿模等问题。
快手可灵1.5(高品质)、字节跳动即梦P2.0pro、爱诗科技PixVerseV3、Minimax海螺AI和Pika 1.5位列文生视频模型前五。 这表明文生视频技术正在快速发展,但距离完美生成逼真、符合物理规律的视频,仍有很长的路要走。
五、 语音语言模型评测:文本大模型进步带来巨大提升,但仍有差距
得益于文本大模型的进步,语音语言模型的能力得到了显著提升,覆盖面也更加全面。然而,在一些特定任务上,与专业级的语音模型相比,仍然存在一定的差距,特别是性能好、通用能力强的开源语音语言模型相对较少。
阿里巴巴Qwen2-Audio排名第一,香港中文大学&微软WavLLM和清华大学&字节跳动Salmon分列二、三名,Nvidia Audio-Flamingo和MIT&IBM LTU也进入前五。 这体现了语音语言模型领域的竞争态势,以及开源模型与闭源模型之间的差异。
六、 K12学科测验:模型能力提升,但仍与人类学生存在差距
智源研究院联合海淀区教师进修学校,再次对大模型进行了K12全学段、多学科的测试。结果显示,由于多模态能力的提升,模型在K12学科测验中的综合得分较半年前提升了12.86%。然而,模型的综合得分仍然低于海淀学生平均水平。 在英语和历史等文科科目中,一些模型的成绩已经超越了人类考生的平均分,但模型普遍存在“文强理弱”的偏科现象。 这表明大模型在教育领域的应用潜力巨大,但也需要进一步提升其理科和综合解题能力。
七、 FlagEval大模型角斗场与FlagEvalDebate平台评测:用户偏好和模型辩论能力分析
FlagEval大模型角斗场是一个面向用户开放的模型对战评测服务,可以反映用户对不同模型的偏好。评测结果显示,用户对模型的响应时间和输出内容的结构化、标准化程度有更高的要求。
FlagEvalDebate平台则对模型的逻辑推理、观点理解和语言表达能力进行了深入评估。评测发现,大模型普遍缺乏辩论框架意识,容易出现“幻觉”,论据也缺乏说服力,并且更擅长反驳而非构建完整的论证。 Anthropic Claude-3-5-sonnet-20241022、零一万物Yi-Lighting和OpenAI o1-preview-2024-09-12在模型辩论评测中表现突出。
八、 金融量化交易场景评测:模型展现初步应用潜力
本次评测首次探索了大模型在金融量化交易领域的应用潜力。结果显示,大模型已经能够生成具备一定收益的量化交易策略代码,其能力已接近初级量化交易员的水平。 然而,在实际代码生成任务上,模型能力仍显不足,模型间的差异也较大。 深度求索Deepseek-chat、OpenAI GPT-4o-2024-08-06和Google Gemini-1.5-pro-latest在金融量化交易评测中表现最佳。
九、 智源评测体系FlagEval持续迭代:覆盖模型数量和评测维度不断扩展
智源研究院自2023年6月上线的大模型评测平台FlagEval,经过多次迭代,目前已覆盖全球800多个开闭源模型,包含20多种任务和90多个评测数据集,超过200万条评测题目。 为了规避数据集泄露和饱和度问题,本次评测更新了98%的题目,并提升了题目的难度。 FlagEval评测体系将持续探索动态评测和多任务能力评估体系,为大模型技术生态发展提供持续的洞察。