Qwen-Audio 论文笔记

论文信息

标题： Qwen-Audio: Advancing Universal Audio Understanding via Unified Large-Scale Audio-Language Models
作者： Yunfei Chu*, Jin Xu*, Xiaohuan Zhou*, Qian Yang, Shiliang Zhang, Zhijie Yan, Chang Zhou†, Jingren Zhou（阿里巴巴）
arXiv： 2311.07919v2
代码与模型： GitHub

现状问题：

灵感来源：

image 1.png

image 2.png

受 Whisper 启发，Qwen-Audio 设计了一套多任务训练格式框架，通过一系列特殊 token（tag）来区分不同音频任务，解决多任务联合训练中的干扰问题。解码序列按以下顺序组织：

序号	标签名称	Token 示例	作用
1	Transcription Tag（转录标签）	`<\	startoftranscripts\
2	Audio Language Tag（音频语言标签）	各语言专属 token / `<\	unknown\
3	Task Tag（任务标签）	`<\	transcribe\
4	Text Language Tag（文本语言标签）	目标语言 token	指定输出文本的目标语言
5	Timestamps Tag（时间戳标签）	`<\	timestamps\
6	Output Instruction（输出指令）	子任务格式指令	进一步指定输出格式，随后开始文本生成

设计原则：通过共享标签最大化相似任务间的知识共享；同时通过不同标签组合区分任务和输出格式，避免一对多映射问题。

经过多任务预训练后，模型已具备广泛的音频理解能力。在此基础上，采用**指令微调（instruction-based fine-tuning）**使模型对齐人类意图，得到交互式聊天模型 Qwen-Audio-Chat。

数据构造：

多音频对话：

image 3.png

关键结论：

Qwen-Audio 无需任何任务特定微调，在 12 个 benchmark 中全面超越先前 SOTA，覆盖 ASR、语音翻译（S2TT）、音频描述（AAC）、语音情感识别（SER）、声学场景分类（ASC）、音频问答（AQA）等多个任务
与 task-specific 的专用模型（如 Paraformer、SpeechT5、WavLM-large 等）相比，统一模型反而取得了更好的性能，说明多任务联合训练带来了正向的知识迁移
在 ASR 任务上，Qwen-Audio 在 Librispeech test-clean/test-other 和 AISHELL1 上均达到极低的 WER，接近甚至超越专用 ASR 系统
在非语音任务（环境声分类、音乐 QA 等）上同样表现优异，验证了模型对多类型音频的通用理解能力
Qwen-Audio-Chat 经过 SFT 后，在交互式音频对话场景中展现了强大的指令跟随和多轮对话能力

image 4.png

关键结论：

Important

SRWT 与 ASR 共享相同的音频数据集，因此去除 SRWT 不影响数据覆盖范围，性能差异纯粹来自于词级时间戳训练信号的贡献

加入 SRWT 还提升了音频问答（AQA）和音乐 QA 等非 ASR 任务的表现，说明细粒度的时间对齐能力增强了模型对音频信号的通用定位能力（grounding ability）