2024下半年智源研究院大模型综合评测结果深度解读:百余模型横评,揭示AI发展新趋势2024年即将结束,大模型领域的竞争依然激烈。智源研究院于2024年12月19日发布了最新的下半年大模型综合评测结果,对100余个国内外开源和闭源的语言、视觉语言、文生图、文生视频、语音语言大模型进行了全面评估
2024下半年智源研究院大模型综合评测结果深度解读:百余模型横评,揭示AI发展新趋势
2024年即将结束,大模型领域的竞争依然激烈。智源研究院于2024年12月19日发布了最新的下半年大模型综合评测结果,对100余个国内外开源和闭源的语言、视觉语言、文生图、文生视频、语音语言大模型进行了全面评估。本次评测在今年5月评测的基础上进行了显著扩展和优化,不仅丰富了对模型任务解决能力的内涵,还新增了数据处理、高级编程和工具调用等能力评估,以及首次针对真实金融量化交易场景的应用能力评估,涵盖收益优化和性能优化等方面。此外,评测还首次探索了基于模型辩论的对比评估方式,深入分析了模型的逻辑推理、观点理解和语言表达能力。
本次评测结果揭示了2024年下半年大模型发展的新趋势:更加注重综合能力的提升和实际应用,多模态模型发展迅速,涌现出许多新的厂商和模型,而语言模型的发展则相对放缓。在模型开源生态方面,除了持续保持开源的海内外机构外,也涌现出新的开源贡献者。
多种模态评测综合榜单:能力趋于饱和,但仍有差距
评测覆盖文本、语音、图像、视频理解与生成等多个模态,针对一般中文场景的开放式问答或生成任务,模型能力已趋于饱和稳定。然而,在复杂场景任务方面,国内头部语言模型与国际一流水平仍存在显著差距。
语言模型评测:主客观评测结果差异显著
语言模型的主观评测重点考察模型的中文能力。结果显示,字节跳动Doubao-pro-32k-preview和百度ERNIE4.0Turbo分别位居第一和第二,OpenAI o1-preview-2024-09-12和Anthropic Claude-3-5-sonnet-20241022分列第三和第四,阿里巴巴Qwen-Max-0919排名第五。
在语言模型客观评测中,OpenAI o1-mini-2024-09-12和Google Gemini-1.5-pro-latest分列第一和第二,阿里巴巴Qwen-max-0919和字节跳动Doubao-pro-32k-preview位居第三和第四,Meta Llama-3.3-70B-Instruct排名前五。值得注意的是,主客观评测结果显示出一定的差异,这反映了不同评测方法对模型能力的侧重点不同。
视觉语言多模态模型:开源模型缩小差距,但仍有提升空间
虽然开源视觉语言多模态模型的架构趋同(语言塔+视觉塔),但其表现却各有不同。其中,较好的开源模型在图文理解任务上正在缩小与头部闭源模型的能力差距,但在长尾视觉知识、文字识别以及复杂图文数据分析能力方面仍有较大的提升空间。
OpenAIGPT-4o-2024-11-20和字节跳动Doubao-Pro-Vision-32k-241028在评测中领先,Anthropic Claude-3-5-sonnet-20241022、阿里巴巴Qwen2-VL-72B-Instruct和Google Gemini-1.5-Pro紧随其后。
文生图多模态模型:中文生成能力提升,但复杂场景仍是挑战
与今年上半年相比,本次参评的头部文生图模型已经具备了中文文字生成能力,这是一个显著的进步。然而,这些模型在复杂场景中仍然存在人物变形的问题,对于常识或知识性推理任务,小于3的数量关系任务表现有所提升,但大于3的数量关系依然无法处理。涉及中国文化和古诗词理解的场景对于模型而言仍然是一个不小的挑战。
腾讯HunyuanImage位列文生图模型榜首,字节跳动Doubaoimagev2.1和Ideogram 2.0分居第二和第三,OpenAI DALL·E 3和快手可图紧随其后。
文生视频多模态模型:画质提升,但动作变形和物理规律理解仍是瓶颈
文生视频模型的画质和动态性都有显著提升,镜头语言也更加丰富,过场也更加流畅。然而,这些模型普遍存在大幅度动作变形,无法理解物理规律,以及物体消失、闪现和穿模等问题。
快手可灵1.5(高品质)、字节跳动即梦P2.0pro、爱诗科技PixVerse V3、MiniMax海螺AI和Pika 1.5位列文生视频模型前五。
语音语言模型:能力提升显著,但与专家模型仍有差距
得益于文本大模型的进步,语音语言模型的能力得到了显著提升,覆盖面也更加全面。然而,在具体任务上,它们与专家模型之间仍存在一定的差距。整体而言,性能好、通用能力强的开源语音语言模型仍然相对较少。
阿里巴巴Qwen2-Audio在语音语言模型专项评测中位居第一,香港中文大学&微软WavLLM和清华大学&字节跳动Salmon分列第二和第三,Nvidia Audio-Flamingo和MIT&IBM LTU也进入前五。
四大专项评测榜单:多维度探索模型能力边界与应用潜能
智源研究院联合海淀区教师进修学校,再次使用K12全学段、多学科试卷对大模型进行了测试,进一步考察了大模型与人类学生的能力差异。主观题由海淀教师亲自评卷。
由于多模态能力的带动发展,模型在K12学科测验中的综合得分比半年前提升了12.86%,但仍与海淀学生平均水平存在差距。在英语和历史文科试题方面,一些模型的表现已经超越了人类考生的平均分,但模型普遍存在“文强理弱”的偏科现象。
FlagEval大模型角斗场与FlagEvalDebate模型辩论平台:用户偏好与逻辑推理能力评估
FlagEval大模型角斗场是智源研究院于9月份推出的面向用户开放的模型对战评测服务,用于反映用户对模型的偏好。目前,FlagEval覆盖国内外约50款大模型,支持语言问答、多模态图文理解、文生图、文生视频四大任务的自定义在线或离线盲测。
评测发现,用户对模型的响应时间有更高的要求,并倾向于更结构化、标准化的输出格式。
FlagEvalDebate模型辩论平台于10月份推出,用于对模型的逻辑推理、观点理解和语言表达能力进行深入评估。评测发现,大模型普遍缺乏辩论框架意识,难以对辩题进行整体逻辑的综合阐述;大模型在辩论中仍然存在“幻觉问题”,论据经不起推敲;大模型更擅长反驳,各个模型表现突出的辩论维度趋同,在不同的辩题中,模型表现差距显著。
Anthropic Claude-3-5-sonnet-20241022、零一万物Yi-Lighting和OpenAI o1-preview-2024-09-12在FlagEvalDebate评测中名列前三。
金融量化交易评测:探索大模型在金融领域的应用潜力
本次评测探索了基于实际应用场景的全新方法,通过评测模型的量化代码实现能力,探索模型在金融量化交易领域的潜在应用能力和商业价值。
评测发现,大模型已经具备生成有回撤收益的策略代码的能力,能够开发量化交易典型场景中的代码。在知识问答方面,模型整体差异较小,整体分数偏高,但在实际代码生成任务上,模型差异较大,整体能力偏弱。头部模型能力已接近初级量化交易员的水平。
深度求索Deepseek-chat、OpenAIGPT-4o-2024-08-06和Google Gemini-1.5-pro-latest在金融量化交易评测中位列前三。
智源评测体系FlagEval再迭代:覆盖全球800+开闭源模型
本次评测依托智源研究院自2023年6月上线的大模型评测平台FlagEval,经过多次迭代,目前已覆盖全球800多个开闭源模型,包含20多种任务,90多个评测数据集,超200万条评测题目。
为规避数据集泄露风险以及数据集饱和度问题,本次评测吸纳了近期发布的数据集并持续动态更新评测数据,替换了98%的题目,并提升了题目的难度。
智源研究院副院长兼总工程师林咏华表示,FlagEval评测体系将继续坚持科学、权威