位置: 首页 > 新闻列表 > 评测资讯 >> 评测资讯

中国电信TeleAI-VAST视频大模型“屠榜”VBench，9项子指标夺冠，5项得分超99%

评测资讯
2024-12-09 22:00:26
转载来源: Network

中国电信TeleAI-VAST视频大模型“屠榜”VBench，9项子指标夺冠，5项得分超99%近日，VBench视频生成模型评测权威榜单被一款名为TeleAI-VAST的视频大模型“屠榜”。该模型由中国电信人工智能研究院（TeleAI）自主研发，在16项子指标中取得9项第一的优异成绩，其中5项得分更是超过99%，物体分类和人体动作两项更是斩获满分100%

中国电信 TeleAI-VAST 视频大模型“屠榜”VBench，9项子指标夺冠，5项得分超99%

近日，VBench视频生成模型评测权威榜单被一款名为TeleAI-VAST的视频大模型“屠榜”。该模型由中国电信人工智能研究院（TeleAI）自主研发，在16项子指标中取得9项第一的优异成绩，其中5项得分更是超过99%，物体分类和人体动作两项更是斩获满分100%。这一突破性进展，标志着中国在视频生成领域取得了重大突破。

TeleAI-VAST在VBench榜单上的卓越表现并非偶然，其背后是强大的技术实力和创新性的架构设计。为了更好地理解TeleAI-VAST的性能，让我们深入探讨其在多个方面的突出优势。

中国电信TeleAI-VAST视频大模型“屠榜”VBench，9项子指标夺冠，5项得分超99%

卓越的时空一致性与动作精准性

TeleAI-AST在人物形象保持和动作控制方面展现了令人惊叹的精准度。在一个展示视频中，四位女主角在不同的场景中保持了高度一致的形象，这对于视频生成模型而言是一个巨大的挑战。传统模型通常难以处理单个人物在不同场景下的前后一致性，而TeleAI-VAST却成功地处理了四个角色的同时保持一致性，这体现了其对人物特征的精准把握和强大的时空一致性控制能力。

中国电信TeleAI-VAST视频大模型“屠榜”VBench，9项子指标夺冠，5项得分超99%

在另一个视频片段中，女主角在公交车、马路、酒吧等多个场景中出现，她的外貌、发型、衣着始终保持一致，画面色调风格也统一协调。这进一步证明了TeleAI-VAST在不同场景下保持主体时空一致性的能力，消除了传统视频生成模型中常见的画面不连贯、人物形象漂移等问题。

不仅如此，TeleAI-VAST还在动作捕捉和控制方面展现了令人印象深刻的性能。一段展示猴王对战的视频片段，流畅逼真的动作展现和精准的镜头跟随，达到了电影级的制作水准。这表明TeleAI-VAST已经能够生成具有高度真实感和动态效果的视频内容，为未来影视制作提供了新的可能性。

中国电信TeleAI-VAST视频大模型“屠榜”VBench，9项子指标夺冠，5项得分超99%

跨模态一致性：音画同步的完美结合

大多数现有的视频生成模型主要生成无声视频，而TeleAI-VAST则突破性地加入了声音元素，并实现了音画同步的完美结合。在展示视频中，舰船鸣笛、飞机轰鸣、潜水艇水声以及火箭冲出水面等声音效果与画面内容完美契合，展现了TeleAI-VAST强大的跨模态一致性控制能力。这不仅提升了视频内容的沉浸感和观赏性，也为视频生成模型的应用拓展了更广阔的空间。

中国电信TeleAI-VAST视频大模型“屠榜”VBench，9项子指标夺冠，5项得分超99%

独创的二阶段视频生成技术：VAST架构

TeleAI-VAST的成功并非偶然，其背后是TeleAI团队独创的“二阶段视频生成技术”（VAST：Video As Storyboard from Text）。该技术架构摒弃了传统的一步到位的方法，而是将视频生成过程分解为两个阶段：

中国电信TeleAI-VAST视频大模型“屠榜”VBench，9项子指标夺冠，5项得分超99%

第一阶段：故事板生成

利用多模态大型模型，根据文本输入生成中间素材，包括姿势、分割图和深度信息等。TeleAI团队将这些中间表示称为“故事板”，这些故事板是模型能够体现场景语义和结构本质的关键。这个阶段的核心在于提取并组织视频的关键信息，为后续的视频生成提供坚实的基础。

中国电信TeleAI-VAST视频大模型“屠榜”VBench，9项子指标夺冠，5项得分超99%

第二阶段：视频生成

利用基于DiT架构的扩散模型，以第一阶段生成的故事板为条件，结合目标对象的文本描述和外观信息，生成最终的视频。这个阶段的关键在于将抽象的故事板转化为具体的视频画面，并保证视频内容与文本描述的一致性以及人物动作和场景的协调性。

中国电信TeleAI-VAST视频大模型“屠榜”VBench，9项子指标夺冠，5项得分超99%

这种分阶段的生成方式使得TeleAI-VAST能够精确控制主体的位置、运动和视觉外观，同时也便于创作者进行调整和修改。这种架构的创新，是TeleAI-VAST在VBench榜单上取得优异成绩的关键因素之一。

片段式生成：无限延长的视频创作可能性

中国电信TeleAI-VAST视频大模型“屠榜”VBench，9项子指标夺冠，5项得分超99%

TeleAI-VAST不仅在模型上分阶段，还可以将视频按场景分成片段。在创作长视频时，创作者可以先设计具体的分镜头，然后针对每个分镜头生成具有一致性的中间素材。这些中间素材不仅用于模型内部处理，也对创作者可见，并可进行调整修改。由于采用了片段式生成方式，只要在每个片段中保持人物一致性，即可生成任意长度的视频。

TeleAI大模型布局中的重要一环

TeleAI-VAST是TeleAI整个大模型布局中的一个重要环节。此前，TeleAI已经自主研发了覆盖语义、语音、视觉、多模态的“星辰”大模型能力体系。“星辰”大模型是央企中唯一开源的大模型，并完成了首个全国产化万卡万参大模型训练，同时还打造了业界首个支持40种方言自由混说的语音识别大模型。

除了基础模型，TeleAI还面向工业、教育等领域推出了50多个场景大模型，并构建了“星海”数据智能中台，形成了9万亿Tokens高质量数据集。在使用方式上也另辟蹊径，甚至推出了发短信和大模型对话的功能。

大模型智能体平台：未来AI产品新方向

除了视频生成大模型，TeleAI还在开发者大会上推出了全新的大模型智能体平台。这个平台的推出，标志着TeleAI在人工智能技术应用上迈出了新的步伐。未来，TeleAI将继续探索人工智能技术的边界，为用户提供更多创新性的AI产品和服务。

TeleAI-VAST的成功，预示着中国在视频生成领域已经达到了世界领先水平。明年公测的到来，更让人期待TeleAI-VAST将为AI视频创作带来怎样的变革，以及未来将出现哪些令人惊艳的AI大片。 TeleAI-VAST的出现，不仅仅是技术上的突破，更是中国人工智能技术发展的一个里程碑。

中国电信 TeleAI-VAST 视频大模型屠榜 VBench 9项指标

上一篇
2025款宝马330e混合动力车评测：微妙升级，续航里程显著提升

下一篇
200款洗面奶真实评测：5款清洁力强、改善肤质的洗面奶推荐