位置: 首页 > 新闻 列表  >  评测资讯 >> 评测资讯

腾讯混元Turbo:万亿参数大模型新突破,国内首个采用分层异构MoE架构

腾讯混元Turbo:万亿参数大模型新突破,国内首个采用分层异构MoE架构腾讯混元大模型家族再添新成员,新一代旗舰大模型混元Turbo技术报告首次曝光。该模型采用全新分层异构的MoE架构,总参数达万亿级别,性能仅次于GPT-4o,位列国内第一梯队

腾讯混元Turbo万亿参数大模型新突破国内首个采用分层异构MoE架构

腾讯混元大模型家族再添新成员,新一代旗舰大模型混元Turbo技术报告首次曝光。该模型采用全新分层异构的MoE架构,总参数达万亿级别,性能仅次于GPT-4o,位列国内第一梯队。混元Turbo的突破之处在于其在追求更高性能的同时,更注重实际应用落地,通过技术创新实现了训练推理效率的大幅提升,并显著降低了推理部署成本。

混元Turbo背后的技术细节

混元Turbo的成功并非偶然,其背后蕴含着腾讯在人工智能领域深耕多年的技术积累。其主要技术亮点包括:

 腾讯混元Turbo:万亿参数大模型新突破,国内首个采用分层异构MoE架构

1. 异构MoE架构:参数规模与性能的平衡

传统的大模型训练面临着参数量与性能之间的矛盾。参数量越大,模型效果上限越高,但同时也意味着更高的部署成本和更低的训练推理性能。为了解决这一难题,混元Turbo采用了全新的异构MoE架构。该架构通过较多的专家数和较小激活量设计,在保持万亿级参数规模的同时,显著提升了模型性能。

2. 自提升pipeline:持续优化模型效果

 腾讯混元Turbo:万亿参数大模型新突破,国内首个采用分层异构MoE架构

混元Turbo引入自研的混元CriticModel和RewardModel,构建自提升pipeline,并全面采用离线数据和在线采样结合的强化学习策略,优化模型效果。相较于传统的PPO及DPO算法,这种策略可控性更高,效果上限也更高。

3. 专项能力突破:提升文理科综合能力

混元Turbo针对当前大模型普遍存在的文科能力偏重,理科能力偏弱的现状,进行了专项能力突破,在高质量文本创作、数学、逻辑推理等领域取得了显著进步。

 腾讯混元Turbo:万亿参数大模型新突破,国内首个采用分层异构MoE架构

3.1 高质量文本创作:专业化写作能力提升

混元Turbo针对目前大模型在专业化写作方面存在的机器味浓、不够信雅达、指令跟随能力不足等问题,进行了大量的优化。通过引入专家标注团队构建高质量写作评估模型,并构建创作指令约束体系,提升了混元Turbo的复杂指令跟随能力。以中、高考中文写作为例,混元Turbo在专家标注团队中自评达一类卷水平,在2023年高考中,混元Turbo获得第三方大模型高考作文写作评测第一名。

3.2 数学能力提升:强化学习技术助力

 腾讯混元Turbo:万亿参数大模型新突破,国内首个采用分层异构MoE架构

为了提升模型的数学能力,混元Turbo采用了多种技术方案,包括提升数据量、运用强化学习技术等。针对已有题库,模型进行了大量的数学题模拟增训。对于难度较高的题目,则采用MCTS等技术提高模型的做题能力。在强化学习方面,混元Turbo使用了DPO/PPO等技术,训练了一个基于过程的reward模型对结果进行打分,最终实现了数学推理能力的显著提升。

3.3 逻辑推理能力提升:数据质量与答案构建的优化

推理能力提升面临着两个主要难点:推理问题的多样性和复杂问题的答案构建。为了解决推理问题的多样性问题,腾讯基于混元训练了一个问题抽取模型,抽取出千万级量级的推理类指令,并通过公开渠道获取全网偏推理的问题,大幅补充了SFT数据中推理问题的多样性。

 腾讯混元Turbo:万亿参数大模型新突破,国内首个采用分层异构MoE架构

4. 联网插件-AI搜索:更懂搜索的SearchGPT

作为新一代旗舰大模型,混元Turbo除支持各类大模型能力外,还支持AI搜索联网插件。通过整合腾讯优质的内容生态(如微信公众号、视频号等)和全网搜索能力,同时基于Planner+ActionAgent架构,混元TurboAI搜索使用丰富的搜索数据进行多任务精调,得到更懂搜索、具备精准阅读理解能力的SearchGPT,用于AI深度问答。目前,通过AI搜索的强大加持,混元Turbo具备强大的时新、深度内容获取和AI问答能力。

 腾讯混元Turbo:万亿参数大模型新突破,国内首个采用分层异构MoE架构

自研工程平台的牢固支撑

混元Turbo的惊艳效果离不开底层算法和平台的支持。腾讯混元大模型全面建立在腾讯全面自研的Angel机器学习平台和强大的算力基础设施之上。

面对万亿级MoE模型参数大显存需求高、All2all通信效率低、训练性能低等挑战,腾讯混元训练框架AngelPTM通过引入大BatchSize训练、FP8低精度训练、梯度通信/MoE通信计算、MOE算子融合等优化策略,使得训练性能提升108%,成本下降70%。

 腾讯混元Turbo:万亿参数大模型新突破,国内首个采用分层异构MoE架构

针对大模型大窗口能力已成行业必备趋势,AngelPTM采用精度无损的attention均衡通信加速算法,实现了高达10M长窗口的训练能力。

对于混元Turbo这样的万亿级超大MoE大模型,推理成本和速度是巨大的挑战。为此,混元推理加速框架AngelHCF支持FP8量化压缩,定制了一系列算子加速FNN模块的推理性能,使得推理性能整体提升1倍,成本下降50%。另外,在强化学习阶段,通过在AngelPTM中集成AngelHCF的方式加速sampling采样性能,整体吞吐提升40%以上。

用户体验:元宝APP开放体验

目前,腾讯混元Turbo模型已在腾讯云官网API正式上架,并在腾讯元宝APP中面向所有C端用户开放,速度更快、体验更好,同时提供AI搜索、AI阅读、AI写作和AI作画等核心功能。

基于混元Turbo模型强大的通用内容理解和推理能力,以及与腾讯生态体系,如微信搜一搜、搜狗搜索、微信公众号、视频号、腾讯新闻和腾讯金融等内容平台的全面连接,为用户提供丰富、权威的生态优质内容及全网信息。

腾讯混元Turbo作为新一代旗舰大模型,在参数规模、性能、效率和功能方面都取得了突破性的进展,展现了腾讯在人工智能领域的技术实力。未来,随着技术的不断进步,混元Turbo将进一步提升模型能力,并与腾讯生态体系深度融合,为用户带来更加丰富、智能的体验。