1. 一图概览

image 1.png

2. 动机：为什么需要 AIR-Bench

现有评估的三重缺失

Important

任务粒度太细，只测单项能力

已有基准都是”一对一”：LibriSpeech 测 ASR、Common Voice 测多语种 ASR、IEMOCAP 测情感识别、Clotho 测音频描述、MusicCaps 测音乐描述…… 每个只考一道题，无法反映 LALM 的综合能力。

Important

综合基准只评 SSL 模型，不评 LALMs

SUPERB 和 HEAR 虽然是综合基准，但设计目标是评估自监督学习的表征质量（冻结 encoder + 线性探针），不适用于评估端到端指令跟随的 LALMs。

Important

唯一的指令跟随基准覆盖面不够

Dynamic-SUPERB 是当时唯一面向 LALMs 指令跟随能力的基准，但只涵盖人类语音，不覆盖环境音和音乐，且不支持开放式生成评估——只能做分类。

结果：行业痛点

各模型（SALMONN、Qwen-Audio、BLSP 等）只能靠展示 demo 或开放 API 来暗示对话能力，无法做公平客观的横向对比，也看不清自身的具体短板在哪。

AIR-Bench 的定位

首个统一评估 LALMs 在语音、环境音、音乐三类音频上的生成式理解与交互能力的基准。

三大特性：

全面的音频覆盖——Speech + Sound + Music + Mixed Audio
层级化基准结构——Foundation（基础能力诊断）+ Chat（开放式交互）
统一、客观、可复现的评估框架——基于 GPT-4 的自动评估，与人类高度一致

3. 基准设计 ⭐ 核心

3.1 整体架构：Foundation + Chat

	基础基准 Foundation	对话基准 Chat
定位	诊断各项基础能力的短板	评估真实场景下的复杂音频交互
规模	19 个任务，~19k 单选题	2k+ 开放式 QA
音频类型	语音 / 环境音 / 音乐	语音 / 环境音 / 音乐 / 混合音频
题目形式	四选一单选（二分类任务为二选一）	开放式生成（感知 / 推理 / 创作）
数据表示	(A, Q=(q,C), R=正确选项)	(A, Q=开放式问题, R=GPT-4 参考答案)

设计哲学：Foundation 像”单项体检”，一项一项查；Chat 像”综合考试”，直接看能不能在真实场景里跟人对话。

3.2 Foundation Benchmark 详解

19 个子任务一览

类别	任务	数据来源	数量
语音（9）	语音定位（Speech Grounding）	LibriSpeech	0.9k
	语种识别	CoVoST2	1k
	说话人性别识别	Common Voice, MELD	1k
	情感识别	IEMOCAP, MELD	1k
	年龄预测	Common Voice	1k
	语音实体识别	SLURP	1k
	意图分类	SLURP	1k
	说话人数量验证	VoxCeleb1	1k
	合成语音检测	FoR	1k
环境音（4）	音频定位（Audio Grounding）	AudioGrounding	0.9k
	人声分类	VocalSound	1k
	声学场景分类	CochlScene, TUT2017	1k
	声音问答	Clotho-AQA, AVQA	1k
音乐（6）	乐器分类	NSynth, MTG-Jamendo	1k
	曲风分类	FMA, MTG-Jamendo	1k
	音符音高分析	NSynth	1k
	音符力度分析	NSynth	1k
	音乐问答	MUSIC-AVQA	0.8k
	音乐情感检测	MTG-Jamendo	1k

💡 ASR 等转录任务不在 Foundation 里——因为它们不适合单选格式，被归入 Chat Benchmark。

题目构造流程

问题 q： 用 GPT-4 根据任务描述 + 3 个示例生成多样化问题，人工审核后每个任务选出 50 种不同问法（目的：测指令跟随能力而非模板记忆）
选项 C： 三种来源
- 原数据集自带选项（如 AVQA）→ 直接复用
- 分类任务 → 从预定义类别池随机抽
- 其余 → GPT-4 生成 1 正确 + 3 干扰项（鼓励干扰项与正确答案相似，增加难度）
选项随机打乱以消除位置偏差
所有音频来自 dev/test 集，防止数据泄露

3.3 Chat Benchmark 详解

数据分布

音频类型	数据来源	数量	问题示例
语音	Fisher, SpokenWOZ, IEMOCAP, Common Voice	800	”第一位说话者是否还有更多问题？“
环境音	Clotho	400	”根据音频中的语音，你应该对布料做什么？“
音乐	MusicCaps	400	”150 词内论述这段音乐如何传达爱国与庄严感”
混合（语音+环境音）	Common Voice + AudioCaps	200	”二十多岁男性说话时伴随着什么声音？“
混合（语音+音乐）	Common Voice + MusicCaps	200	”男性说话者音频背景中能听到什么旋律？“

音频混合策略 🔑 本文亮点

混合音频是 Chat Benchmark 区别于其他基准的关键创新——模拟真实场景中”语音叠加背景音乐/环境音”的复杂情况。

两步混合法：

响度控制（Loudness Control）
- 分别对两段音频施加不同增益（如语音 +3dB，音乐 -3dB）
- 记录 Louder 元信息：哪段音频更响
时间错位混合（Temporal Dislocation Mixing）
- 两段音频在时间轴上偏移后叠加
- 记录 Ahead 元信息：哪段先出现（meanwhile / before / after）

混合后的音频附带完整元信息（性别、年龄、转录、音乐描述 + Louder + Ahead），供评估框架使用。

开放式 QA 构造

收集每段音频的所有 ground truth 元信息（性别、年龄、情感、转录、语言、音乐描述、乐器等）——不用预训练模型提取，避免引入噪声
针对不同音频类型手工设计 GPT-4 prompt：
- 语音： 侧重感知 + 推理（如情感推断、说话人关系推测）
- 环境音： 侧重场景推理（“听到这个声音你应该做什么”）
- 音乐： 侧重创作（基于音乐写故事、评论）
GPT-4 生成 QA 对 → 自动过滤与音频无关的问题 → 人工全量审核
GPT-4 生成的答案作为评估的参考答案（不是 ground truth，而是评分锚点）

3.4 数据质量保障总结

问题多样性：Foundation 每个任务 50 种问法
选项质量：干扰项与正确答案高度相似
数据来源：全部 dev/test 集
双重过滤：GPT-4 自动 + 人工审核

4. 评估框架

4.1 核心设计理念

Important

生成式评估（Generative Evaluation）： 所有模型必须直接生成回答（hypothesis），而不是比较不同选项的 perplexity。这更贴合 LALMs 的实际使用场景。

关键问题：GPT-4 无法直接处理音频输入。

解决方案：将音频的丰富文本元信息（转录、情感标签、性别、年龄、音乐描述等 ground truth 标注）喂给 GPT-4，代替实际音频。

4.2 Foundation 评估

模型输入：音频 + 单选题
模型输出：hypothesis（自由文本）
评估：GPT-4 判断 hypothesis 是否与 golden choice 一致 → 0/1 二元打分

为什么不用精确匹配（Exact Matching）？

模型	精确匹配成功率	GPT-4 对齐成功率
BLSP	100.0%	100.0%
SALMONN	97.3%	100.0%
NExT-GPT	98.1%	100.0%
Qwen-Audio Turbo	48.2%	100.0%
Qwen-Audio-Chat	30.7%	100.0%
PandaGPT	30.8%	100.0%
Macaw-LLM	0.1%	100.0%
SpeechGPT	0.0%	100.0%

不同模型输出格式差异极大：BLSP 直接输出 “B”，SpeechGPT 输出整段自然语言。精确匹配在很多模型上完全失效，GPT-4 对齐后全部 100%。

4.3 Chat 评估

Step 1: GPT-4 Generator 根据元信息 + 问题 → 生成参考答案
Step 2: GPT-4 Evaluator 根据元信息 + 问题 + 参考答案 + 模型假设 → 打 1-10 分
评分维度：有用性、相关性、准确性、全面性

参考答案的角色： 不是 ground truth，而是评分锚点——稳定 GPT-4 的打分行为。

消除位置偏差： 交换 hypothesis 和 reference 的顺序打两次分 → 取平均。论文实验证实不做交换会产生明显偏差（hypothesis 在前时得分偏高）。

4.4 与人类评估的一致性

Foundation： GPT-4 Turbo 与人类判断一致性 98.2%（400 题，3 位英语母语者评估）；GPT-3.5 Turbo 为 96.4%
Chat： 在 Qwen-Audio-Chat / SALMONN / BLSP / GPT-4 的两两比较中，GPT-4 与人类偏好一致性 >70%（200 题，3 位英语母语者）
按音频类型细分：Music 和 Mixed Audio 的一致性略高；Sound 和 Speech 略低（推测原因：Sound 类有更多情境性问题，Speech 类有更多推理题，评估难度更大）

4.5 Prompt 工程

论文在附录 C 中分享了调 prompt 的经验：

去掉评分维度描述（有用性、相关性等）→ 满分答案降到 8-9 分，错误答案升到 2-3 分 → 说明这些”冗余描述”其实帮助 GPT-4 校准评分尺度
调换信息顺序（如把音频描述移到问答之后）→ 评分崩坏，原本满分的答案只得 5 分 → prompt 对信息排列极度敏感
小的标点或语法错误不影响评分

5. 实验结果

5.1 评估模型

共 9 个模型 + 1 个级联基线：

多音频类型模型： SALMONN、Qwen-Audio-Chat、Qwen-Audio Turbo
语音专项模型： SpeechGPT、BLSP、LLaSM
多模态模型： PandaGPT、Macaw-LLM、NExT-GPT
级联基线： Whisper-large-v2 + GPT-4 Turbo（仅适用于语音任务）

所有模型使用最新公开 checkpoint、最大参数量、默认解码策略。

5.2 主要结果

模型	Foundation 语音	Foundation 环境音	Foundation 音乐	Foundation 平均	Chat 语音	Chat 环境音	Chat 音乐	Chat 混合	Chat 平均
Qwen-Audio Turbo	63.4%	61.0%	48.9%	57.8%	7.04	6.59	5.98	5.77	6.34
Qwen-Audio-Chat	58.7%	60.2%	44.8%	54.5%	6.47	6.95	5.52	5.38	6.08
SALMONN	37.8%	33.0%	37.1%	36.0%	6.16	6.28	5.95	6.08	6.11
PandaGPT	39.0%	43.6%	38.1%	40.2%	3.58	5.46	5.06	2.93	4.25
BLSP	36.6%	31.4%	26.1%	31.4%	6.17	5.55	5.08	4.52	5.33
NExT-GPT	33.6%	32.2%	28.9%	31.5%	3.86	4.76	4.18	2.92	4.13
Macaw-LLM	32.2%	30.1%	29.7%	30.7%	0.97	1.01	0.91	1.00	1.01
SpeechGPT	34.3%	27.5%	28.1%	30.0%	1.57	0.95	0.95	1.14	1.15
Whisper+GPT-4	53.6%	/	/	/	7.54	/	/	/	/

参考基线：四选一随机准确率 25%，二选一（性别/合成检测）50%。接近这些数值意味着模型在该任务上几乎没有能力。

5.3 核心洞察

Important

洞察 1：音频理解 vs 指令跟随的”跷跷板”

Qwen-Audio Turbo 综合最强，但指令格式跟随弱（精确匹配仅 48.2%，常输出完整句子而非选项字母）。BLSP 格式跟随完美（100%），但音频理解差（Foundation 平均仅 31.4%）。现有模型还没能同时做好”听懂”和”听话”。

Important

洞察 2：端到端模型尚未超越级联方案

在语音相关的 Chat 任务上，Whisper+GPT-4 拿到最高分 7.54，超过所有端到端 LALM。这说明当前端到端模型在语音理解+文本生成的联合优化上还有很大空间。不过级联方案天然无法处理环境音和音乐。

Important

洞察 3：混合音频是最大难点

大部分模型在 Mixed Audio 上得分最低。SALMONN 是唯一在混合音频上表现相对突出的（Chat 6.08），可能得益于其同时训练了语音和音频理解能力。

Important

洞察 4：Foundation 和 Chat 排名不完全一致

SALMONN 的 Foundation 成绩平平（36%），但 Chat 排名第二（6.11）——说明基础单项能力和综合对话能力之间并非简单线性关系，可能涉及泛化、推理等高层能力。

6. 局限性

不支持多音频比较： 如评估两段音乐的连贯性、相似度
不覆盖多轮对话： 只测单轮 QA，不评估上下文跟踪能力
依赖 GPT-4 API： 评估成本较高，且如果 API 变动（涨价/关闭）需要寻找替代评估器
元信息替代音频的局限： GPT-4 评估基于文本元信息而非实际音频，可能遗漏某些音频细节

Audio Notes

探索

AIR-Bench- Benchmarking Large Audio-Language Models via Generative Comprehension

1. 一图概览

2. 动机：为什么需要 AIR-Bench

现有评估的三重缺失

结果：行业痛点

AIR-Bench 的定位

3. 基准设计 ⭐ 核心

3.1 整体架构：Foundation + Chat

3.2 Foundation Benchmark 详解

19 个子任务一览

题目构造流程

3.3 Chat Benchmark 详解

数据分布

音频混合策略 🔑 本文亮点

开放式 QA 构造

3.4 数据质量保障总结

4. 评估框架

4.1 核心设计理念

4.2 Foundation 评估

4.3 Chat 评估

4.4 与人类评估的一致性

4.5 Prompt 工程

5. 实验结果

5.1 评估模型

5.2 主要结果

5.3 核心洞察

6. 局限性

关系图谱

目录