位置: 首页 > 新闻列表 > 评测资讯 >> 评测资讯

腾讯混元Turbo：万亿参数大模型新突破，国内首个采用分层异构MoE架构

评测资讯
2024-09-13 01:11:05
转载来源: Network

腾讯混元Turbo：万亿参数大模型新突破，国内首个采用分层异构MoE架构腾讯混元大模型家族再添新成员，新一代旗舰大模型混元Turbo技术报告首次曝光。该模型采用全新分层异构的MoE架构，总参数达万亿级别，性能仅次于GPT-4o，位列国内第一梯队

腾讯 混元 Turbo：万亿 参数 大模型 新突破，国内首个采用分层异构MoE架构

腾讯混元大模型家族再添新成员，新一代旗舰大模型混元Turbo技术报告首次曝光。该模型采用全新分层异构的MoE架构，总参数达万亿级别，性能仅次于GPT-4o，位列国内第一梯队。混元Turbo的突破之处在于其在追求更高性能的同时，更注重实际应用落地，通过技术创新实现了训练推理效率的大幅提升，并显著降低了推理部署成本。

混元Turbo背后的技术细节

混元Turbo的成功并非偶然，其背后蕴含着腾讯在人工智能领域深耕多年的技术积累。其主要技术亮点包括：

腾讯混元Turbo：万亿参数大模型新突破，国内首个采用分层异构MoE架构

1. 异构MoE架构：参数规模与性能的平衡

传统的大模型训练面临着参数量与性能之间的矛盾。参数量越大，模型效果上限越高，但同时也意味着更高的部署成本和更低的训练推理性能。为了解决这一难题，混元Turbo采用了全新的异构MoE架构。该架构通过较多的专家数和较小激活量设计，在保持万亿级参数规模的同时，显著提升了模型性能。

2. 自提升pipeline：持续优化模型效果

腾讯混元Turbo：万亿参数大模型新突破，国内首个采用分层异构MoE架构

混元Turbo引入自研的混元CriticModel和RewardModel，构建自提升pipeline，并全面采用离线数据和在线采样结合的强化学习策略，优化模型效果。相较于传统的PPO及DPO算法，这种策略可控性更高，效果上限也更高。

3. 专项能力突破：提升文理科综合能力

混元Turbo针对当前大模型普遍存在的文科能力偏重，理科能力偏弱的现状，进行了专项能力突破，在高质量文本创作、数学、逻辑推理等领域取得了显著进步。

腾讯混元Turbo：万亿参数大模型新突破，国内首个采用分层异构MoE架构

3.1 高质量文本创作：专业化写作能力提升

混元Turbo针对目前大模型在专业化写作方面存在的机器味浓、不够信雅达、指令跟随能力不足等问题，进行了大量的优化。通过引入专家标注团队构建高质量写作评估模型，并构建创作指令约束体系，提升了混元Turbo的复杂指令跟随能力。以中、高考中文写作为例，混元Turbo在专家标注团队中自评达一类卷水平，在2023年高考中，混元Turbo获得第三方大模型高考作文写作评测第一名。

3.2 数学能力提升：强化学习技术助力

腾讯混元Turbo：万亿参数大模型新突破，国内首个采用分层异构MoE架构

为了提升模型的数学能力，混元Turbo采用了多种技术方案，包括提升数据量、运用强化学习技术等。针对已有题库，模型进行了大量的数学题模拟增训。对于难度较高的题目，则采用MCTS等技术提高模型的做题能力。在强化学习方面，混元Turbo使用了DPO/PPO等技术，训练了一个基于过程的reward模型对结果进行打分，最终实现了数学推理能力的显著提升。

3.3 逻辑推理能力提升：数据质量与答案构建的优化

推理能力提升面临着两个主要难点：推理问题的多样性和复杂问题的答案构建。为了解决推理问题的多样性问题，腾讯基于混元训练了一个问题抽取模型，抽取出千万级量级的推理类指令，并通过公开渠道获取全网偏推理的问题，大幅补充了SFT数据中推理问题的多样性。

腾讯混元Turbo：万亿参数大模型新突破，国内首个采用分层异构MoE架构

4. 联网插件-AI搜索：更懂搜索的SearchGPT

作为新一代旗舰大模型，混元Turbo除支持各类大模型能力外，还支持AI搜索联网插件。通过整合腾讯优质的内容生态（如微信公众号、视频号等）和全网搜索能力，同时基于Planner+ActionAgent架构，混元TurboAI搜索使用丰富的搜索数据进行多任务精调，得到更懂搜索、具备精准阅读理解能力的SearchGPT，用于AI深度问答。目前，通过AI搜索的强大加持，混元Turbo具备强大的时新、深度内容获取和AI问答能力。

腾讯混元Turbo：万亿参数大模型新突破，国内首个采用分层异构MoE架构

自研工程平台的牢固支撑

混元Turbo的惊艳效果离不开底层算法和平台的支持。腾讯混元大模型全面建立在腾讯全面自研的Angel机器学习平台和强大的算力基础设施之上。

面对万亿级MoE模型参数大显存需求高、All2all通信效率低、训练性能低等挑战，腾讯混元训练框架AngelPTM通过引入大BatchSize训练、FP8低精度训练、梯度通信/MoE通信计算、MOE算子融合等优化策略，使得训练性能提升108%，成本下降70%。

腾讯混元Turbo：万亿参数大模型新突破，国内首个采用分层异构MoE架构

针对大模型大窗口能力已成行业必备趋势，AngelPTM采用精度无损的attention均衡通信加速算法，实现了高达10M长窗口的训练能力。

对于混元Turbo这样的万亿级超大MoE大模型，推理成本和速度是巨大的挑战。为此，混元推理加速框架AngelHCF支持FP8量化压缩，定制了一系列算子加速FNN模块的推理性能，使得推理性能整体提升1倍，成本下降50%。另外，在强化学习阶段，通过在AngelPTM中集成AngelHCF的方式加速sampling采样性能，整体吞吐提升40%以上。

用户体验：元宝APP开放体验

目前，腾讯混元Turbo模型已在腾讯云官网API正式上架，并在腾讯元宝APP中面向所有C端用户开放，速度更快、体验更好，同时提供AI搜索、AI阅读、AI写作和AI作画等核心功能。

基于混元Turbo模型强大的通用内容理解和推理能力，以及与腾讯生态体系，如微信搜一搜、搜狗搜索、微信公众号、视频号、腾讯新闻和腾讯金融等内容平台的全面连接，为用户提供丰富、权威的生态优质内容及全网信息。

腾讯混元Turbo作为新一代旗舰大模型，在参数规模、性能、效率和功能方面都取得了突破性的进展，展现了腾讯在人工智能领域的技术实力。未来，随着技术的不断进步，混元Turbo将进一步提升模型能力，并与腾讯生态体系深度融合，为用户带来更加丰富、智能的体验。

腾讯混元 Turbo 万亿参数大模型新突破突破国内

上一篇
269元就能拥有6L大容量！米家空气炸锅S1：年轻人的第一款空气炸锅

下一篇
vivo Y300 Pro：千元档续航王者，80W 闪充实力登场