2025年AI大模型年终盘点:国产模型崛起,多模态应用成焦点还有不到一周就2025年了,各大科技公司纷纷发布年度报告,回顾过去一年的发展成果。作为人工智能领域的年度盛事,对AI大模型的评测结果自然也备受关注
2025年AI大模型年终盘点:国产模型崛起,多模态应用成焦点
还有不到一周就2025年了,各大科技公司纷纷发布年度报告,回顾过去一年的发展成果。作为人工智能领域的年度盛事,对AI大模型的评测结果自然也备受关注。智源研究院于12月19日发布了FlagEval“百模”评测结果,这份报告全面评估了国内外100多个开源和商业闭源的大语言模型、视觉语言模型、文生图模型、文生视频模型以及语音语言模型,为我们呈现了2024年AI大模型领域的竞争格局和发展趋势。
此次评测涵盖了语言模型、视觉语言模型、文生图模型、文生视频模型以及语音语言模型等多个领域,并创新性地增加了对AI模型任务解决能力、真实金融量化交易场景应用能力以及辩论能力的评估。为了保证评测的客观性和公平性,智源研究院采用了最新的数据集,持续动态更新评测数据,并替换了98%的题目,大幅提升了题目的难度,有效降低了数据集泄露风险和数据集饱和度问题。
自去年6月上线以来,智源研究院大模型评测平台FlagEval不断完善,目前已拥有基于AI的辅助评测模型FlagJudge、多模态评测框架FlagEvalMM以及针对大模型新能力的评测集。与北京大学共建的HalluDial更是全球规模最大的对话场景下幻觉评测集,包含超过18000个轮次对话和超过14万个回答,为大模型的评估提供了坚实的数据基础。
智源研究院的评测结果显示,2024年下半年大模型发展呈现出以下几个显著特点:首先,各大模型厂商更注重模型的综合能力提升和实际应用,不再单纯追求参数规模的扩张;其次,多模态模型发展迅速,涌现出许多新的厂商和AI模型;最后,语言模型的发展速度相对放缓,创新突破相对较少。
值得一提的是,多模态能力的提升显著改善了AI模型在K12学科测验中的表现。相较于半年前,AI模型的综合得分提升了12.86%,虽然仍与北京海淀区学生的平均水平存在差距,但在部分科目上已经展现出超越人类平均水平的能力。尤其在文科方面,一些AI模型在英语和历史学科的得分已经超过了人类考生的平均分。例如,谷歌Gemini 1.5 Pro、阿里巴巴Qwen-VL-Max、Anthropic Claude 3.5 Sonnet、阶跃星辰Step 1V以及南洋理工大学LLaVA-Onevision等7个AI模型的英语学科综合得分高于人类考生;阶跃星辰Step 1V、阿里巴巴Qwen-VL和Qwen-VL-Max、谷歌Gemini 1.5 Pro以及南洋理工大学LLaVA-Onevision等12个AI模型的历史学科综合得分高于人类考生。这表明AI模型在理解和处理文本信息方面取得了显著进展,尤其是在文科领域,其优势更加明显。
一、豆包中文对话能力最强,OpenAI o1系列推理水平断层领先
根据智源评测结果,多款国产大模型的综合能力已经超过了一些知名的海外大模型。在闭源大模型主观评测中,字节跳动的豆包通用模型Pro和百度ERNIE 4.0 Turbo的综合评分均领先于OpenAI的o1-preview、o1-mini和GPT-4o;在开源大模型主观评测中,阿里巴巴Qwen 2.5的综合评分高于Meta Llama 3.3和Llama 3.1。主观评测更侧重于考察大模型的中文能力,而国产大模型在中文语言能力方面具备显著优势。在闭源大模型主观评测前20名中,有15款国产大模型,占比高达75%,包括豆包通用模型Pro、百度ERNIE 4.0 Turbo、阿里巴巴Qwen-Max、智谱华章GLM-4-Plus以及阶跃星辰Step 2等。
然而,在客观评测中,国产大模型与海外大模型之间仍存在差距。OpenAI的o1-mini获得了客观评测的最高分64.57,o1-preview则以60.36的综合评分位列第二。阿里巴巴的Qwen-Max和豆包通用模型Pro的综合评分分别为57.60和56.49,与o1-mini之间存在约7分的分差,与o1-preview之间存在约3分的分差。
从细分能力的评分来看,国产大模型普遍存在“重文轻理”的现象,在推理、数学和代码等方面落后于OpenAI的大模型。例如,即使在侧重中文语境的评测中,OpenAI o1-preview仍然在主观评测任务解决板块获得最高分85.37,远远领先于其他模型。
二、多模态评测,国产大模型各擅胜场
智源研究院的调研显示,头部模型的多模态能力在今年得到了显著提升。上半年参评的模型普遍无法生成正确的中文文字,而年末参评的头部模型已经具备了中文文字生成能力。在多模态模型评测中,视觉语言模型平均排名前三的分别是OpenAI的GPT-4o、字节跳动的豆包视觉理解模型以及Anthropic的Claude 3.5 Sonnet。豆包模型在通用知识和文字识别等中文能力方面具有显著优势,而Claude模型在英文图表理解方面表现最佳。
在文生图和文生视频领域,国产大模型也展现出强大的竞争力。豆包文生图模型和豆包视频生成模型“即梦P2.0 Pro”分别位列全球第二;腾讯HunYuan Image在文生图方面排名第一;快手可灵1.5(高品质版)在文生视频方面排名第一;阿里巴巴Qwen 2-Audio在语音语言方面排名第一。
虽然AI文生图技术已经趋于成熟,但AI文生视频领域仍然面临诸多挑战。目前热门的AI文生视频模型包括可灵1.5(高品质版)、即梦P2.0 Pro、爱诗科技PixVerse V3、Minimax海螺AI以及Pika 1.5等。其中,可灵1.5和即梦P2.0 Pro均可生成时长10秒的视频,在图文一致性方面不相上下,但可灵1.5在AI视频真实性和视频质量方面略胜一筹,而即梦P2.0 Pro在AI视频美学质量和分辨率方面表现更佳。值得注意的是,上述几家多模态模型中,只有阿里巴巴采用开源路线。智源研究院指出,虽然开源模型架构趋同,但具体表现不一,在图文理解任务上正在缩小与头部闭源模型的差距,但在长尾视觉知识、文字识别以及复杂图文数据分析能力方面仍有提升空间。
三、AI模型更擅长反驳辩题,还可任职金融行业初级岗位
智源研究院在年末评测中新增加了对AI模型辩论能力和金融量化交易能力的评估。FlagEvalDebate AI模型辩论平台从逻辑推理、观点理解和语言表达等方面评估了AI大模型的能力。评测结果显示,AI大模型普遍缺乏辩论框架意识,难以围绕辩题进行整体逻辑阐述,并且仍然存在“幻觉”问题。然而,AI模型似乎更擅长担任辩论赛的反方,在反驳方面表现出色。Anthropic Claude 3.5 Sonnet、零一万物Yi-Lighting以及OpenAI o1-preview在该项评测中综合水平排名前三。
在金融量化交易领域,评测发现AI大模型已经具备生成有回撤收益的策略代码的能力,能够开发量化交易典型场景里的代码,头部AI模型的能力已经接近初级量化交易员的水平。深度求索的DeepSeek-V2.5、OpenAI的GPT-4o、OpenAI的o1-mini、谷歌的Gemini 1.5 Pro以及智谱华章的GLM-4-Plus在该榜单中排名前五。百度、腾讯、字节跳动、商汤、阿里巴巴、百川智能以及零一万物等7家国产大模型开发商均有产品上榜。
智源研究院主要通过知识问答、交易策略的跑通率和夏普指数、指标计算的跑通率和准确率以及计算性能的跑通率这六项指标来比较AI模型的金融量化交易能力。在知识问答方面,AI模型整体差异较小,得分大多介于0.97到1之间,最低分是Meta Llama 3.1的0.69。然而,在实际代码生成任务中,AI模型的差异较大,整体能力偏弱。
在2024年这场“