豆包大模型语音识别技术突破：Seed-ASR赋能多场景应用

评测资讯
2024-08-23 00:40:39
转载来源: Network

豆包大模型语音识别技术突破：Seed-ASR赋能多场景应用2024年8月21日，火山引擎AI创新巡展﹒上海站成功举办，活动重点展示了豆包大模型在语音识别领域的最新突破，并发布了对话式AI实时交互解决方案。其中，豆包大模型团队的最新成果Seed-ASR，一款基于大语言模型的自动语音识别（ASR）系统，凭借高精度识别、大容量模型、支持多种语言、上下文感知和分阶段训练方法等技术亮点，在多个场景中展现出显著优势

豆包 大模型 语音 识别 技术 突破：Seed-ASR 赋能多场景应用

2024年8月21日，火山引擎AI创新巡展﹒上海站成功举办，活动重点展示了豆包大模型在语音识别领域的最新突破，并发布了对话式AI实时交互解决方案。其中，豆包大模型团队的最新成果Seed-ASR，一款基于大语言模型的自动语音识别（ASR）系统，凭借高精度识别、大容量模型、支持多种语言、上下文感知和分阶段训练方法等技术亮点，在多个场景中展现出显著优势。

豆包大模型的持续进化

豆包大模型语音识别技术突破：Seed-ASR赋能多场景应用

公开及内部测评集显示，最新版本的豆包大模型对比5月15日发布版本综合能力提升20.3%，其中，角色扮演能力提升38.3%，语言理解能力提升33.3%，数学能力提升13.5%。根据QuestMobile报告，基于豆包大模型打造的豆包APP月活用户数在上半年已达2752万，为同类APP第一，是第二名的2.43倍。

豆包大模型语音识别技术突破：Seed-ASR赋能多场景应用

此次活动重点发布了豆包大模型在语音识别和语音合成方面的升级成果，以及最新上线的对话式AI实时交互功能。其中，豆包﹒语音合成模型升级了流式语音合成能力，能够实时响应、精准断句，支持“边想边说”。豆包﹒语音识别模型，可基于更强上下文感知能力，推理得出更准确的识别结果，并支持一个模型识别普通话和粤语、上海话、四川话、西安话、闽南语等多种中国方言。

豆包大模型语音识别技术突破：Seed-ASR赋能多场景应用

基于语音合成、语音识别等成果，火山引擎整合了云服务的实时音视频技术，使AI语音交互能像人类说话一样打断和插话，端到端延时可低至1秒以内。即使在弱网环境，丢包80%依然可保持清晰流畅。

豆包大模型语音识别技术突破：Seed-ASR赋能多场景应用

Seed-ASR：语音识别的新突破

豆包大模型语音识别技术突破：Seed-ASR赋能多场景应用

Seed-ASR是豆包大模型团队的另一项重要成果，它基于大语言模型，能够将各种语音转化为文本信息，使机器能够“听懂”用户说话，并“聪明”地识别各种信息。

豆包大模型语音识别技术突破：Seed-ASR赋能多场景应用

Seed-ASR的优势在于：

豆包大模型语音识别技术突破：Seed-ASR赋能多场景应用

高精度识别：在中英文公开测试集上，Seed-ASR的单词错误率（面向中文以单个字计算）相比此前发布的大型ASR模型降低了10%-40%，展现出显著优势。

豆包大模型语音识别技术突破：Seed-ASR赋能多场景应用

大容量模型：Seed-ASR基于大模型，拥有强大的泛化能力，能够应用于各类场景，更为简洁。

豆包大模型语音识别技术突破：Seed-ASR赋能多场景应用

支持多种语言：Seed-ASR支持13种中文方言和英语，同时正在拓展支持40种语言。

豆包大模型语音识别技术突破：Seed-ASR赋能多场景应用

上下文感知：Seed-ASR能够利用丰富的上下文理解语音信号，识别特定术语，并在会议纪要中“听懂”新加入参会者的人名。

豆包大模型语音识别技术突破：Seed-ASR赋能多场景应用

分阶段训练方法：Seed-ASR采用分阶段训练方法，有效提升了模型的精度和上下文推理能力。

豆包大模型语音识别技术突破：Seed-ASR赋能多场景应用

Seed-ASR的应用场景

豆包大模型语音识别技术突破：Seed-ASR赋能多场景应用

Seed-ASR已经在豆包APP中得到应用，被网友用在英语会话、虚拟聊天伴侣、复刻亲友声音等多个场景。面向更多企业客户，Seed-ASR依托火山引擎，在语音交互、内容审核、会议访谈转写、音视频字幕等场景也有落地。

豆包大模型语音识别技术突破：Seed-ASR赋能多场景应用

Seed-ASR的技术原理

豆包大模型语音识别技术突破：Seed-ASR赋能多场景应用

Seed-ASR的立项始于2023年初，随着ChatGPT的横空出世，Scaling Laws成为显学，各领域研究者都意识到，参数量和数据量的大幅增长使得模型同时拥有强大的理解和生成能力。

豆包大模型语音识别技术突破：Seed-ASR赋能多场景应用

Seed-ASR的核心亮点在于：

豆包大模型语音识别技术突破：Seed-ASR赋能多场景应用

上下文理解能力：通过构建有效且多样的训练数据，Seed-ASR激发了模型的语音模态，使得模型可以结合文本，捕捉语音中的相关信息，并在推理中，设计一些解码策略，以缓解上下文引入造成的幻觉及误转写问题。

All-in-One理念：Seed-ASR基于All-in-One思路，强大的泛化性使它能被用于各类场景，更为简洁。

Seed-ASR的训练流程

Seed-ASR的训练过程包括：

1. 音频编码器的自监督学习（SSL）：该步骤使编码器能从语音中捕获丰富信息，参考了基于BERT的语音SSL框架，团队开发了一种基于一致性的模型，可在音频信号中可捕捉并存储语音信号中的全局及局部信息。

2. 监督微调（SFT）：SFT阶段采用“可学习编码器+可学习转化器+固定LLM”策略，使得语音中的语义信息与LLM的语义空间对齐。

3. 上下文微调（ContextSFT）：ContextSFT引入上下文感知训练以及联合波束搜索方法，增强了对口音、发音不清、同音异义词、生僻词等模糊信息的理解能力。

4. 强化学习（RL）：RL阶段使用前一阶段训练的上下文SFT初始化模型参数，利用高质量数据进行数千小时的强化学习训练，进一步增强模型的上下文感知能力。

Seed-ASR的实验结果

实验结果显示，Seed-ASR在中文领域和英文领域都超过了其他同类模型。在主观评价中，Seed-ASR（CN版本）在直播、视频、会议场景中表现出比人类更好的主观可理解性。

Scaling Laws对Seed-ASR的影响

研究测试过程中，团队观察到，更大模型可以通过增加训练数据量级，不断降低损失值。团队在训练阶段选取了5个量级的模型，通过770万小时无监督多领域纯语音数据训练，观察Loss值、单词错误率（WER）。结果显示，随着模型规模提升，交叉熵预训练Loss值与单词错误率均会降低，且预训练Loss值与单词错误率呈正相关关系。

项目主要参与者之一林同学认为，Seed-ASR将释放巨大的潜力，推动人机交互更为智能化。ASR对于小众语言、口音、发音的更强兼容性，可促使技术进一步普惠不同文化背景或沟通障碍的小众群体。

团队的文化和精神

Seed-ASR项目能够快速推进，除了技术路线选取的前瞻性，还源于高效的跨团队协同。算法同学发起前期验证和技术方向规划，当模型展现出对应能力，更多同学加入进来。工程同学提供了训练稳定性和推理加速方面的支持，数据同学快速支持了要素生产，评测同学构建了一套六边形的评价维度。Leader们会身居一线，紧密跟踪前沿工作和技术推进，与各职能同学紧密沟通技术细节，以更好协调资源和指导项目推进。

“务实”、“重视技术”是团队的底色，这种氛围促使大家更加自驱，更加积极去推进项目，最终促使技术落地，释放价值，并给同行提供新的视角。

Seed-ASR是豆包大模型团队语音方向取得的重要成果，它展现了大语言模型在语音识别领域的巨大潜力。未来，团队将继续探索Scaling Laws，不断提升模型的精度和性能，为更多场景提供更智能的语音识别解决方案。