1. 一图概览

image.png

image 1.png

2. 动机:为什么需要 AIR-Bench

现有评估的三重缺失

Important

任务粒度太细,只测单项能力

已有基准都是”一对一”:LibriSpeech 测 ASR、Common Voice 测多语种 ASR、IEMOCAP 测情感识别、Clotho 测音频描述、MusicCaps 测音乐描述…… 每个只考一道题,无法反映 LALM 的综合能力。

Important

综合基准只评 SSL 模型,不评 LALMs

SUPERB 和 HEAR 虽然是综合基准,但设计目标是评估自监督学习的表征质量(冻结 encoder + 线性探针),不适用于评估端到端指令跟随的 LALMs。

Important

唯一的指令跟随基准覆盖面不够

Dynamic-SUPERB 是当时唯一面向 LALMs 指令跟随能力的基准,但只涵盖人类语音,不覆盖环境音和音乐,且不支持开放式生成评估——只能做分类。

结果:行业痛点

各模型(SALMONN、Qwen-Audio、BLSP 等)只能靠展示 demo开放 API 来暗示对话能力,无法做公平客观的横向对比,也看不清自身的具体短板在哪。

AIR-Bench 的定位

首个统一评估 LALMs 在语音、环境音、音乐三类音频上的生成式理解与交互能力的基准。

三大特性:

  1. 全面的音频覆盖——Speech + Sound + Music + Mixed Audio

  2. 层级化基准结构——Foundation(基础能力诊断)+ Chat(开放式交互)

  3. 统一、客观、可复现的评估框架——基于 GPT-4 的自动评估,与人类高度一致

3. 基准设计 ⭐ 核心

3.1 整体架构:Foundation + Chat

基础基准 Foundation对话基准 Chat
定位诊断各项基础能力的短板评估真实场景下的复杂音频交互
规模19 个任务,~19k 单选题2k+ 开放式 QA
音频类型语音 / 环境音 / 音乐语音 / 环境音 / 音乐 / 混合音频
题目形式四选一单选(二分类任务为二选一)开放式生成(感知 / 推理 / 创作)
数据表示(A, Q=(q,C), R=正确选项)(A, Q=开放式问题, R=GPT-4 参考答案)

设计哲学:Foundation 像”单项体检”,一项一项查;Chat 像”综合考试”,直接看能不能在真实场景里跟人对话。

3.2 Foundation Benchmark 详解

19 个子任务一览

类别任务数据来源数量
语音(9)语音定位(Speech Grounding)LibriSpeech0.9k
语种识别CoVoST21k
说话人性别识别Common Voice, MELD1k
情感识别IEMOCAP, MELD1k
年龄预测Common Voice1k
语音实体识别SLURP1k
意图分类SLURP1k
说话人数量验证VoxCeleb11k
合成语音检测FoR1k
环境音(4)音频定位(Audio Grounding)AudioGrounding0.9k
人声分类VocalSound1k
声学场景分类CochlScene, TUT20171k
声音问答Clotho-AQA, AVQA1k
音乐(6)乐器分类NSynth, MTG-Jamendo1k
曲风分类FMA, MTG-Jamendo1k
音符音高分析NSynth1k
音符力度分析NSynth1k
音乐问答MUSIC-AVQA0.8k
音乐情感检测MTG-Jamendo1k

💡 ASR 等转录任务不在 Foundation 里——因为它们不适合单选格式,被归入 Chat Benchmark。

题目构造流程

  1. 问题 q: 用 GPT-4 根据任务描述 + 3 个示例生成多样化问题,人工审核后每个任务选出 50 种不同问法(目的:测指令跟随能力而非模板记忆)

  2. 选项 C: 三种来源

    • 原数据集自带选项(如 AVQA)→ 直接复用

    • 分类任务 → 从预定义类别池随机抽

    • 其余 → GPT-4 生成 1 正确 + 3 干扰项(鼓励干扰项与正确答案相似,增加难度)

  3. 选项随机打乱以消除位置偏差

  4. 所有音频来自 dev/test 集,防止数据泄露

3.3 Chat Benchmark 详解

数据分布

音频类型数据来源数量问题示例
语音Fisher, SpokenWOZ, IEMOCAP, Common Voice800”第一位说话者是否还有更多问题?“
环境音Clotho400”根据音频中的语音,你应该对布料做什么?“
音乐MusicCaps400”150 词内论述这段音乐如何传达爱国与庄严感”
混合(语音+环境音)Common Voice + AudioCaps200”二十多岁男性说话时伴随着什么声音?“
混合(语音+音乐)Common Voice + MusicCaps200”男性说话者音频背景中能听到什么旋律?“

音频混合策略 🔑 本文亮点

混合音频是 Chat Benchmark 区别于其他基准的关键创新——模拟真实场景中”语音叠加背景音乐/环境音”的复杂情况。

两步混合法:

  1. 响度控制(Loudness Control)

    • 分别对两段音频施加不同增益(如语音 +3dB,音乐 -3dB)

    • 记录 Louder 元信息:哪段音频更响

  2. 时间错位混合(Temporal Dislocation Mixing)

    • 两段音频在时间轴上偏移后叠加

    • 记录 Ahead 元信息:哪段先出现(meanwhile / before / after)

混合后的音频附带完整元信息(性别、年龄、转录、音乐描述 + Louder + Ahead),供评估框架使用。

开放式 QA 构造

  1. 收集每段音频的所有 ground truth 元信息(性别、年龄、情感、转录、语言、音乐描述、乐器等)——不用预训练模型提取,避免引入噪声

  2. 针对不同音频类型手工设计 GPT-4 prompt:

    • 语音: 侧重感知 + 推理(如情感推断、说话人关系推测)

    • 环境音: 侧重场景推理(“听到这个声音你应该做什么”)

    • 音乐: 侧重创作(基于音乐写故事、评论)

  3. GPT-4 生成 QA 对 → 自动过滤与音频无关的问题 → 人工全量审核

  4. GPT-4 生成的答案作为评估的参考答案(不是 ground truth,而是评分锚点)

3.4 数据质量保障总结

  • 问题多样性:Foundation 每个任务 50 种问法

  • 选项质量:干扰项与正确答案高度相似

  • 数据来源:全部 dev/test 集

  • 双重过滤:GPT-4 自动 + 人工审核

4. 评估框架

4.1 核心设计理念

Important

生成式评估(Generative Evaluation): 所有模型必须直接生成回答(hypothesis),而不是比较不同选项的 perplexity。这更贴合 LALMs 的实际使用场景。

关键问题:GPT-4 无法直接处理音频输入。

解决方案:将音频的丰富文本元信息(转录、情感标签、性别、年龄、音乐描述等 ground truth 标注)喂给 GPT-4,代替实际音频。

4.2 Foundation 评估

模型输入:音频 + 单选题
模型输出:hypothesis(自由文本)
评估:GPT-4 判断 hypothesis 是否与 golden choice 一致 → 0/1 二元打分

为什么不用精确匹配(Exact Matching)?

模型精确匹配成功率GPT-4 对齐成功率
BLSP100.0%100.0%
SALMONN97.3%100.0%
NExT-GPT98.1%100.0%
Qwen-Audio Turbo48.2%100.0%
Qwen-Audio-Chat30.7%100.0%
PandaGPT30.8%100.0%
Macaw-LLM0.1%100.0%
SpeechGPT0.0%100.0%

不同模型输出格式差异极大:BLSP 直接输出 “B”,SpeechGPT 输出整段自然语言。精确匹配在很多模型上完全失效,GPT-4 对齐后全部 100%。

4.3 Chat 评估

Step 1: GPT-4 Generator 根据元信息 + 问题 → 生成参考答案
Step 2: GPT-4 Evaluator 根据元信息 + 问题 + 参考答案 + 模型假设 → 打 1-10
评分维度:有用性、相关性、准确性、全面性

参考答案的角色: 不是 ground truth,而是评分锚点——稳定 GPT-4 的打分行为。

消除位置偏差: 交换 hypothesis 和 reference 的顺序打两次分 → 取平均。论文实验证实不做交换会产生明显偏差(hypothesis 在前时得分偏高)。

4.4 与人类评估的一致性

  • Foundation: GPT-4 Turbo 与人类判断一致性 98.2%(400 题,3 位英语母语者评估);GPT-3.5 Turbo 为 96.4%

  • Chat: 在 Qwen-Audio-Chat / SALMONN / BLSP / GPT-4 的两两比较中,GPT-4 与人类偏好一致性 >70%(200 题,3 位英语母语者)

  • 按音频类型细分:Music 和 Mixed Audio 的一致性略高;Sound 和 Speech 略低(推测原因:Sound 类有更多情境性问题,Speech 类有更多推理题,评估难度更大)

4.5 Prompt 工程

论文在附录 C 中分享了调 prompt 的经验:

  • 去掉评分维度描述(有用性、相关性等)→ 满分答案降到 8-9 分,错误答案升到 2-3 分 → 说明这些”冗余描述”其实帮助 GPT-4 校准评分尺度

  • 调换信息顺序(如把音频描述移到问答之后)→ 评分崩坏,原本满分的答案只得 5 分 → prompt 对信息排列极度敏感

  • 小的标点或语法错误不影响评分

5. 实验结果

5.1 评估模型

共 9 个模型 + 1 个级联基线:

  • 多音频类型模型: SALMONN、Qwen-Audio-Chat、Qwen-Audio Turbo

  • 语音专项模型: SpeechGPT、BLSP、LLaSM

  • 多模态模型: PandaGPT、Macaw-LLM、NExT-GPT

  • 级联基线: Whisper-large-v2 + GPT-4 Turbo(仅适用于语音任务)

所有模型使用最新公开 checkpoint、最大参数量、默认解码策略。

5.2 主要结果

模型Foundation 语音Foundation 环境音Foundation 音乐Foundation 平均Chat 语音Chat 环境音Chat 音乐Chat 混合Chat 平均
Qwen-Audio Turbo63.4%61.0%48.9%57.8%7.046.595.985.776.34
Qwen-Audio-Chat58.7%60.2%44.8%54.5%6.476.955.525.386.08
SALMONN37.8%33.0%37.1%36.0%6.166.285.956.086.11
PandaGPT39.0%43.6%38.1%40.2%3.585.465.062.934.25
BLSP36.6%31.4%26.1%31.4%6.175.555.084.525.33
NExT-GPT33.6%32.2%28.9%31.5%3.864.764.182.924.13
Macaw-LLM32.2%30.1%29.7%30.7%0.971.010.911.001.01
SpeechGPT34.3%27.5%28.1%30.0%1.570.950.951.141.15
Whisper+GPT-453.6%///7.54////

参考基线:四选一随机准确率 25%,二选一(性别/合成检测)50%。接近这些数值意味着模型在该任务上几乎没有能力。

5.3 核心洞察

Important

洞察 1:音频理解 vs 指令跟随的”跷跷板”

Qwen-Audio Turbo 综合最强,但指令格式跟随弱(精确匹配仅 48.2%,常输出完整句子而非选项字母)。BLSP 格式跟随完美(100%),但音频理解差(Foundation 平均仅 31.4%)。现有模型还没能同时做好”听懂”和”听话”。

Important

洞察 2:端到端模型尚未超越级联方案

在语音相关的 Chat 任务上,Whisper+GPT-4 拿到最高分 7.54,超过所有端到端 LALM。这说明当前端到端模型在语音理解+文本生成的联合优化上还有很大空间。不过级联方案天然无法处理环境音和音乐。

Important

洞察 3:混合音频是最大难点

大部分模型在 Mixed Audio 上得分最低。SALMONN 是唯一在混合音频上表现相对突出的(Chat 6.08),可能得益于其同时训练了语音和音频理解能力。

Important

洞察 4:Foundation 和 Chat 排名不完全一致

SALMONN 的 Foundation 成绩平平(36%),但 Chat 排名第二(6.11)——说明基础单项能力和综合对话能力之间并非简单线性关系,可能涉及泛化、推理等高层能力。

6. 局限性

  • 不支持多音频比较: 如评估两段音乐的连贯性、相似度

  • 不覆盖多轮对话: 只测单轮 QA,不评估上下文跟踪能力

  • 依赖 GPT-4 API: 评估成本较高,且如果 API 变动(涨价/关闭)需要寻找替代评估器

  • 元信息替代音频的局限: GPT-4 评估基于文本元信息而非实际音频,可能遗漏某些音频细节