位置: 首页 > 新闻 列表  >  评测资讯 >> 评测资讯

中国电信TeleAI-VAST视频大模型“屠榜”VBench,9项子指标夺冠,5项得分超99%

中国电信TeleAI-VAST视频大模型“屠榜”VBench,9项子指标夺冠,5项得分超99%近日,VBench视频生成模型评测权威榜单被一款名为TeleAI-VAST的视频大模型“屠榜”。该模型由中国电信人工智能研究院(TeleAI)自主研发,在16项子指标中取得9项第一的优异成绩,其中5项得分更是超过99%,物体分类和人体动作两项更是斩获满分100%

中国电信TeleAI-VAST视频大模型屠榜VBench9项指标夺冠,5项得分超99%

近日,VBench视频生成模型评测权威榜单被一款名为TeleAI-VAST的视频大模型“屠榜”。该模型由中国电信人工智能研究院(TeleAI)自主研发,在16项子指标中取得9项第一的优异成绩,其中5项得分更是超过99%,物体分类和人体动作两项更是斩获满分100%。这一突破性进展,标志着中国在视频生成领域取得了重大突破。

TeleAI-VAST在VBench榜单上的卓越表现并非偶然,其背后是强大的技术实力和创新性的架构设计。为了更好地理解TeleAI-VAST的性能,让我们深入探讨其在多个方面的突出优势。

中国电信TeleAI-VAST视频大模型“屠榜”VBench,9项子指标夺冠,5项得分超99%

卓越的时空一致性与动作精准性

TeleAI-AST在人物形象保持和动作控制方面展现了令人惊叹的精准度。在一个展示视频中,四位女主角在不同的场景中保持了高度一致的形象,这对于视频生成模型而言是一个巨大的挑战。传统模型通常难以处理单个人物在不同场景下的前后一致性,而TeleAI-VAST却成功地处理了四个角色的同时保持一致性,这体现了其对人物特征的精准把握和强大的时空一致性控制能力。

中国电信TeleAI-VAST视频大模型“屠榜”VBench,9项子指标夺冠,5项得分超99%

在另一个视频片段中,女主角在公交车、马路、酒吧等多个场景中出现,她的外貌、发型、衣着始终保持一致,画面色调风格也统一协调。这进一步证明了TeleAI-VAST在不同场景下保持主体时空一致性的能力,消除了传统视频生成模型中常见的画面不连贯、人物形象漂移等问题。

不仅如此,TeleAI-VAST还在动作捕捉和控制方面展现了令人印象深刻的性能。一段展示猴王对战的视频片段,流畅逼真的动作展现和精准的镜头跟随,达到了电影级的制作水准。这表明TeleAI-VAST已经能够生成具有高度真实感和动态效果的视频内容,为未来影视制作提供了新的可能性。

中国电信TeleAI-VAST视频大模型“屠榜”VBench,9项子指标夺冠,5项得分超99%

跨模态一致性:音画同步的完美结合

大多数现有的视频生成模型主要生成无声视频,而TeleAI-VAST则突破性地加入了声音元素,并实现了音画同步的完美结合。在展示视频中,舰船鸣笛、飞机轰鸣、潜水艇水声以及火箭冲出水面等声音效果与画面内容完美契合,展现了TeleAI-VAST强大的跨模态一致性控制能力。这不仅提升了视频内容的沉浸感和观赏性,也为视频生成模型的应用拓展了更广阔的空间。

中国电信TeleAI-VAST视频大模型“屠榜”VBench,9项子指标夺冠,5项得分超99%

独创的二阶段视频生成技术:VAST架构

TeleAI-VAST的成功并非偶然,其背后是TeleAI团队独创的“二阶段视频生成技术”(VAST:Video As Storyboard from Text)。该技术架构摒弃了传统的一步到位的方法,而是将视频生成过程分解为两个阶段:

中国电信TeleAI-VAST视频大模型“屠榜”VBench,9项子指标夺冠,5项得分超99%

第一阶段:故事板生成

利用多模态大型模型,根据文本输入生成中间素材,包括姿势、分割图和深度信息等。TeleAI团队将这些中间表示称为“故事板”,这些故事板是模型能够体现场景语义和结构本质的关键。这个阶段的核心在于提取并组织视频的关键信息,为后续的视频生成提供坚实的基础。

中国电信TeleAI-VAST视频大模型“屠榜”VBench,9项子指标夺冠,5项得分超99%

第二阶段:视频生成

利用基于DiT架构的扩散模型,以第一阶段生成的故事板为条件,结合目标对象的文本描述和外观信息,生成最终的视频。这个阶段的关键在于将抽象的故事板转化为具体的视频画面,并保证视频内容与文本描述的一致性以及人物动作和场景的协调性。

中国电信TeleAI-VAST视频大模型“屠榜”VBench,9项子指标夺冠,5项得分超99%

这种分阶段的生成方式使得TeleAI-VAST能够精确控制主体的位置、运动和视觉外观,同时也便于创作者进行调整和修改。这种架构的创新,是TeleAI-VAST在VBench榜单上取得优异成绩的关键因素之一。

片段式生成:无限延长的视频创作可能性

中国电信TeleAI-VAST视频大模型“屠榜”VBench,9项子指标夺冠,5项得分超99%

TeleAI-VAST不仅在模型上分阶段,还可以将视频按场景分成片段。在创作长视频时,创作者可以先设计具体的分镜头,然后针对每个分镜头生成具有一致性的中间素材。这些中间素材不仅用于模型内部处理,也对创作者可见,并可进行调整修改。由于采用了片段式生成方式,只要在每个片段中保持人物一致性,即可生成任意长度的视频。

TeleAI大模型布局中的重要一环

TeleAI-VAST是TeleAI整个大模型布局中的一个重要环节。此前,TeleAI已经自主研发了覆盖语义、语音、视觉、多模态的“星辰”大模型能力体系。“星辰”大模型是央企中唯一开源的大模型,并完成了首个全国产化万卡万参大模型训练,同时还打造了业界首个支持40种方言自由混说的语音识别大模型。

除了基础模型,TeleAI还面向工业、教育等领域推出了50多个场景大模型,并构建了“星海”数据智能中台,形成了9万亿Tokens高质量数据集。在使用方式上也另辟蹊径,甚至推出了发短信和大模型对话的功能。

大模型智能体平台:未来AI产品新方向

除了视频生成大模型,TeleAI还在开发者大会上推出了全新的大模型智能体平台。这个平台的推出,标志着TeleAI在人工智能技术应用上迈出了新的步伐。未来,TeleAI将继续探索人工智能技术的边界,为用户提供更多创新性的AI产品和服务。

TeleAI-VAST的成功,预示着中国在视频生成领域已经达到了世界领先水平。明年公测的到来,更让人期待TeleAI-VAST将为AI视频创作带来怎样的变革,以及未来将出现哪些令人惊艳的AI大片。 TeleAI-VAST的出现,不仅仅是技术上的突破,更是中国人工智能技术发展的一个里程碑。