<?xml version="1.0" encoding="UTF-8" ?>
<rss version="2.0">
    <channel>
      <title>Audio Notes</title>
      <link>https://audio-notes-site.pages.dev</link>
      <description>最近的10条笔记 on Audio Notes</description>
      <generator>Quartz -- quartz.jzhao.xyz</generator>
      <item>
    <title>LLM 推理全流程：Prefill 与 Decoding 维度推演</title>
    <link>https://audio-notes-site.pages.dev/Audio/LLM-%E6%8E%A8%E7%90%86%E5%85%A8%E6%B5%81%E7%A8%8B%EF%BC%9APrefill-%E4%B8%8E-Decoding-%E7%BB%B4%E5%BA%A6%E6%8E%A8%E6%BC%94</link>
    <guid>https://audio-notes-site.pages.dev/Audio/LLM-%E6%8E%A8%E7%90%86%E5%85%A8%E6%B5%81%E7%A8%8B%EF%BC%9APrefill-%E4%B8%8E-Decoding-%E7%BB%B4%E5%BA%A6%E6%8E%A8%E6%BC%94</guid>
    <description><![CDATA[ 来源：学长的的yuque ··· 我只是加以整理为笔记 Important 以一个具体的玩具配置，把一次 LLM 推理从 token 进入到第一个生成 token，再到 Step 2 的 KV Cache 复用，按维度一步步推一遍。所有形状都精确到张量级别。 0. ]]></description>
    <pubDate>Thu, 07 May 2026 05:06:35 GMT</pubDate>
  </item><item>
    <title>C14</title>
    <link>https://audio-notes-site.pages.dev/Audio/Speech-and-Language-Processing-(3rd-ed-draft)/C14</link>
    <guid>https://audio-notes-site.pages.dev/Audio/Speech-and-Language-Processing-(3rd-ed-draft)/C14</guid>
    <description><![CDATA[ C14 Speech Signal Basics 主线 这一章先把 speech 从“语言”还原成“信号”： air pressure over time → sampled waveform → frequency / energy / duration features → perceptual features like pitch, loudness, mel → controllable speech model inputs 语音模型处理的不是抽象文字，而是被数字化的声波。理解 audio feature 的关键，是分清三组关系： 物理量 vs 感知量：F0 是物理频率，pitch... ]]></description>
    <pubDate>Thu, 07 May 2026 05:06:35 GMT</pubDate>
  </item><item>
    <title>C16</title>
    <link>https://audio-notes-site.pages.dev/Audio/Speech-and-Language-Processing-(3rd-ed-draft)/C16</link>
    <guid>https://audio-notes-site.pages.dev/Audio/Speech-and-Language-Processing-(3rd-ed-draft)/C16</guid>
    <description><![CDATA[ C16 Text-to-Speech 16.1 Overview VALL-E 是一个 personalized TTS 系统，用来说明现代 zero-shot TTS 的基本思路：用少量目标说话人的语音作为 prompt，让模型生成同一声音风格下的新文本语音。 VALL-E 的训练数据规模很大：约 60K 小时英文语音，来自 7000+ 个不同说话人。 系统主要有两个组件： Audio tokenizer：通常基于 audio codec。codec 包含 encoder、quantizer、decoder 三部分： encoder：把 speech 转成 embedding vectors... ]]></description>
    <pubDate>Thu, 07 May 2026 05:06:35 GMT</pubDate>
  </item><item>
    <title>Speech and Language Processing (3rd ed. draft)</title>
    <link>https://audio-notes-site.pages.dev/Audio/Speech-and-Language-Processing-(3rd-ed.-draft)</link>
    <guid>https://audio-notes-site.pages.dev/Audio/Speech-and-Language-Processing-(3rd-ed.-draft)</guid>
    <description><![CDATA[ 链接🔗 C14. ]]></description>
    <pubDate>Thu, 07 May 2026 05:06:35 GMT</pubDate>
  </item><item>
    <title>关于 Mini-Omni 的一点疑问</title>
    <link>https://audio-notes-site.pages.dev/Audio/%E5%85%B3%E4%BA%8E-Mini-Omni-%E7%9A%84%E4%B8%80%E7%82%B9%E7%96%91%E9%97%AE</link>
    <guid>https://audio-notes-site.pages.dev/Audio/%E5%85%B3%E4%BA%8E-Mini-Omni-%E7%9A%84%E4%B8%80%E7%82%B9%E7%96%91%E9%97%AE</guid>
    <description><![CDATA[ 读 Mini-Omni 这篇论文的时候，有几个地方卡了挺久，记录一下思考过程。 论文链接： arXiv 2408.16725 一、Batch Trick：凭什么样本 2 的文本更好？ Mini-Omni 的推理策略挺巧妙：把 batch size 从 1 扩到 2，样本 1 同时生成文本 + 音频，样本 2 只生成文本。每一步把样本 2 的文本 token 替换到样本 1 对应位置，让音频在”更好的文本”指导下生成。 论文说这样音频质量会更好。但为啥 样本 2 的文本更好？ 两个样本跑的是同一个模型、同一次前向传播。文本 head 的参数没变，hidden states 也是共享的——同一个 ... ]]></description>
    <pubDate>Thu, 07 May 2026 05:06:35 GMT</pubDate>
  </item><item>
    <title>论文阅读 · 英文词汇表</title>
    <link>https://audio-notes-site.pages.dev/Audio/%E8%AE%BA%E6%96%87%E9%98%85%E8%AF%BB-%C2%B7-%E8%8B%B1%E6%96%87%E8%AF%8D%E6%B1%87%E8%A1%A8</link>
    <guid>https://audio-notes-site.pages.dev/Audio/%E8%AE%BA%E6%96%87%E9%98%85%E8%AF%BB-%C2%B7-%E8%8B%B1%E6%96%87%E8%AF%8D%E6%B1%87%E8%A1%A8</guid>
    <description><![CDATA[  Important 用途：读 audio / LLM 论文时攒下来的高频英文词。每遇到一个新的就添一行，最后一列“论文中遇到时的第一反应”比中文释义更重要——词意上网查就行，词在论文里的作者语气 / 常见搭配 / 隐含图谋才是读不懂的根源。 用法约定 按首字母分区，方便查找；数量少时可以合并成一张表。 词条字段：词 / 词性 / 中文 / 论文里的典型含义 / 记忆抓手。 来自的论文用尾注形式标，便于回查上下文。 “记忆抓手”写的是射箋——下次在别的 paper 里再遇到的时候，有没有一句能让你立刻想起意思的钩子。 A articulate 词性：动词 / 形容词（重音位置不同：动词 尾音 ... ]]></description>
    <pubDate>Thu, 07 May 2026 05:06:35 GMT</pubDate>
  </item><item>
    <title>语音处理基础步骤概览</title>
    <link>https://audio-notes-site.pages.dev/Audio/%E8%AF%AD%E9%9F%B3%E5%A4%84%E7%90%86%E5%9F%BA%E7%A1%80%E6%AD%A5%E9%AA%A4%E6%A6%82%E8%A7%88</link>
    <guid>https://audio-notes-site.pages.dev/Audio/%E8%AF%AD%E9%9F%B3%E5%A4%84%E7%90%86%E5%9F%BA%E7%A1%80%E6%AD%A5%E9%AA%A4%E6%A6%82%E8%A7%88</guid>
    <description><![CDATA[ 🧱 3. ]]></description>
    <pubDate>Thu, 07 May 2026 05:06:35 GMT</pubDate>
  </item><item>
    <title>AIR-Bench- Benchmarking Large Audio-Language Models via Generative Comprehension</title>
    <link>https://audio-notes-site.pages.dev/Audio/%F0%9F%93%9A-%E8%AE%BA%E6%96%87%E9%98%85%E8%AF%BB%E5%BA%93/AIR-Bench--Benchmarking-Large-Audio-Language-Models-via-Generative-Comprehension</link>
    <guid>https://audio-notes-site.pages.dev/Audio/%F0%9F%93%9A-%E8%AE%BA%E6%96%87%E9%98%85%E8%AF%BB%E5%BA%93/AIR-Bench--Benchmarking-Large-Audio-Language-Models-via-Generative-Comprehension</guid>
    <description><![CDATA[ 1. 一图概览 2. ]]></description>
    <pubDate>Thu, 07 May 2026 05:06:35 GMT</pubDate>
  </item><item>
    <title>Beyond the 80-20 Rule：High-Entropy Minority Tokens Drive Effective Reinforcement Learning for LLM Reasoning</title>
    <link>https://audio-notes-site.pages.dev/Audio/%F0%9F%93%9A-%E8%AE%BA%E6%96%87%E9%98%85%E8%AF%BB%E5%BA%93/Beyond-the-80-20-Rule%EF%BC%9AHigh-Entropy-Minority-Tokens-Drive-Effective-Reinforcement-Learning-for-LLM-Reasoning</link>
    <guid>https://audio-notes-site.pages.dev/Audio/%F0%9F%93%9A-%E8%AE%BA%E6%96%87%E9%98%85%E8%AF%BB%E5%BA%93/Beyond-the-80-20-Rule%EF%BC%9AHigh-Entropy-Minority-Tokens-Drive-Effective-Reinforcement-Learning-for-LLM-Reasoning</guid>
    <description><![CDATA[ 为什么读 这篇直接把 RLVR 的有效性拆到 token entropy 视角：不是所有 CoT token 都同等重要，高熵少数 token 像 reasoning path 的分叉点。它比单纯说”RL 让模型会推理”更具体，适合接在 DeepSeek-R1 / DeepSeekMath 后面读。 一句话 RLVR 主要优化的是高熵的”分叉 token”，而不是平均地改写整条推理链。 Token entropy 怎么算 论文里的 token entropy 指的是：在生成第 t 个 token 之前，模型面对整个词表的概率分布有多分散。 H_t=-\sum_{j=1}^{V}p_{t,j}\... ]]></description>
    <pubDate>Thu, 07 May 2026 05:06:35 GMT</pubDate>
  </item><item>
    <title>COCONUT-Training Large Language Models to Reason in a Continuous Latent Space (COCONUT)</title>
    <link>https://audio-notes-site.pages.dev/Audio/%F0%9F%93%9A-%E8%AE%BA%E6%96%87%E9%98%85%E8%AF%BB%E5%BA%93/COCONUT-Training-Large-Language-Models-to-Reason-in-a-Continuous-Latent-Space-(COCONUT)</link>
    <guid>https://audio-notes-site.pages.dev/Audio/%F0%9F%93%9A-%E8%AE%BA%E6%96%87%E9%98%85%E8%AF%BB%E5%BA%93/COCONUT-Training-Large-Language-Models-to-Reason-in-a-Continuous-Latent-Space-(COCONUT)</guid>
    <description><![CDATA[  ]]></description>
    <pubDate>Thu, 07 May 2026 05:06:35 GMT</pubDate>
  </item>
    </channel>
  </rss>