1. 项目概述在语音处理领域自监督学习已成为获取高质量语音表征的主流方法。传统方法如HuBERT和WavLM依赖于迭代的离线k-means聚类这种方法不仅计算成本高昂而且硬聚类分配会丢失声学边界的不确定性信息。我们提出的GMM-Anchored JEPA方法通过一次性拟合高斯混合模型(GMM)并使用其冻结的软后验作为辅助目标有效解决了这些问题。关键创新点使用GMM的软聚类特性保留声学边界的不确定性信息同时通过冻结模型避免迭代重聚类带来的计算开销。2. 核心方法解析2.1 整体框架设计GMM-Anchored JEPA包含两个阶段GMM拟合阶段在log-mel频谱图上一次性拟合K组分的对角协方差GMM联合训练阶段学生编码器同时优化两个目标预测来自EMA教师的掩码潜在表示(JEPA损失)匹配聚类头输出与冻结GMM后验(聚类损失)这种设计的关键在于冻结的GMM提供稳定的声学目标防止编码器共适应软后验保留声学边界的不确定性衰减的监督权重(λ从1.0到0.01)确保早期声学 grounding后期JEPA主导2.2 GMM拟合细节我们选择对角协方差GMM而非全协方差主要基于以下考虑计算效率对角协方差在大型语料库上更易处理频率独立性log-mel特征各维度相对独立参数稳定性避免小样本情况下的奇异矩阵软后验计算如下qₖ(m) πₖN(m; μₖ, σ²ₖ) / ∑ⱼπⱼN(m; μⱼ, σ²ⱼ)其中πₖ是混合权重μₖ和σ²ₖ分别是第k个高斯组分的均值和方差。2.3 联合训练机制2.3.1 JEPA损失L_JEPA 1/|M| ∑_{t∈M} ||hψ(z̃_student)_t - z_teacher,t||²其中M是掩码位置集合hψ是预测器z̃_student是带掩码的学生表示z_teacher是教师表示2.3.2 聚类损失使用KL散度衡量聚类头输出与GMM后验的差异L_cluster 1/|M| ∑_{t∈M} KL(q_gmm,t || p_cluster,t)2.3.3 总损失采用线性衰减的加权方案L_total L_JEPA λ(t)·L_cluster λ(t) λ_start (λ_end - λ_start)·t/T_max典型设置为λ_start1.0λ_end0.01。3. 实现细节与优化3.1 数据增强策略为提高模型鲁棒性我们采用两种增强方式3.1.1 噪声添加x_aug x_clean α·n α sqrt(E_clean / (10^(SNR/10)·E_noise))其中SNR从[-5,20]dB随机采样应用概率25%3.1.2 语句混合x_mix[t1:t2] x1[t1:t2] β·x2[s1:s2] β sqrt(E1·10^(ρ/10)/E2)其中ρ从[-5,5]dB随机采样最大重叠50%应用概率25%3.2 模型架构3.2.1 编码器设计采用跨步卷积Conformer堆栈初始卷积k7, p3, 1→C0通道跨步块序列跨步卷积(k2s, strides)Snake-Beta激活残差块(膨胀卷积[1,3,5])密度自适应注意力Conformer堆栈(4层)半步前馈(扩展因子4)多头自注意力(32头)深度可分离卷积(k31)总跨步[8×8×5]320对应16kHz下的20ms帧。3.2.2 注意力机制创新采用门控相对位置偏置对数分桶处理远距离位置bucket(i-j) |i-j| if |i-j|B/4 B/4 (B/4)·log(|i-j|/(B/4))/log(D_max/(B/4)) otherwise基于查询的门控g_update σ(q·u) g_reset σ(q·w)其中u,w是可学习向量。4. 实验与分析4.1 实验设置数据约50k小时语音(LibriLight大子集English Granary)基线Pure JEPA(λ0)WavLM-style(相同架构k-means)评估任务ASR(LibriSpeech)情感识别(IEMOCAP)槽位填充(SNIPS)4.2 主要结果4.2.1 语音识别(WER)模型WER(%)相对改进Pure JEPA100.00-WavLM-style33.22基线GMM-JEPA29.18-12.2%GMM-JEPA-T28.68-13.7%4.2.2 槽位填充(F1)模型Type F1相对改进Pure JEPA5.0-WavLM-style59.1基线GMM-JEPA64.75.64.2.3 情感识别(准确率)模型平均准确率相对改进WavLM-style65.46基线GMM-JEPA67.301.8GMM-JEPA-T67.762.34.3 聚类质量分析4.3.1 熵与聚类使用模型熵(%)使用聚类数Pure JEPA45516/1024WavLM-style31978/1024GMM-JEPA851007/1024GMM-JEPA-T981013/10244.3.2 可视化分析UMAP投影显示Pure JEPA塌缩到小密集区域WavLM-style扩散重叠的聚类GMM-JEPA局部化、分离良好的聚类区域5. 关键发现与讨论5.1 残差监督的必要性当λ_end0时模型性能显著下降WER从29.18%升至40.95%熵从84.7%降至57.7%使用聚类数从1011降至506这表明GMM锚定不仅是初始化手段更是持续的稳定器。5.2 架构通用性方法在两种架构上均有效Conformer-based(GMM-JEPA)Transformer-based(GMM-JEPA-T)特别地Transformer版本语音识别表现最佳(28.68% WER)聚类熵最高(98%)音素对齐最好(NMI0.24)5.3 软聚类的优势相比硬聚类保留声学边界不确定性提供更丰富的监督信号实现更均匀的聚类使用(98% vs 31%熵)6. 实际应用建议基于我们的实验经验给出以下实施建议GMM配置从K512开始根据GPU内存逐步增加使用对角协方差确保训练稳定性在10%数据上预拟合确定合适K值训练技巧初始λ1.0保持至少10%训练时长线性衰减到λ0.01效果最佳最终λ不宜设为0建议保持微小值(0.01-0.05)数据增强SNR范围[-5,20]dB效果均衡语句混合比例控制在25%-30%能量归一化避免幅值失真架构选择需要音素级任务优先Transformer需要说话人特征优先Conformer内存受限时减少Conformer层数实测中发现当batch size较小时(如256)适当增大λ_end(如0.05)有助于稳定训练。
GMM-Anchored JEPA:自监督语音表征学习新方法
发布时间:2026/6/11 7:05:23
1. 项目概述在语音处理领域自监督学习已成为获取高质量语音表征的主流方法。传统方法如HuBERT和WavLM依赖于迭代的离线k-means聚类这种方法不仅计算成本高昂而且硬聚类分配会丢失声学边界的不确定性信息。我们提出的GMM-Anchored JEPA方法通过一次性拟合高斯混合模型(GMM)并使用其冻结的软后验作为辅助目标有效解决了这些问题。关键创新点使用GMM的软聚类特性保留声学边界的不确定性信息同时通过冻结模型避免迭代重聚类带来的计算开销。2. 核心方法解析2.1 整体框架设计GMM-Anchored JEPA包含两个阶段GMM拟合阶段在log-mel频谱图上一次性拟合K组分的对角协方差GMM联合训练阶段学生编码器同时优化两个目标预测来自EMA教师的掩码潜在表示(JEPA损失)匹配聚类头输出与冻结GMM后验(聚类损失)这种设计的关键在于冻结的GMM提供稳定的声学目标防止编码器共适应软后验保留声学边界的不确定性衰减的监督权重(λ从1.0到0.01)确保早期声学 grounding后期JEPA主导2.2 GMM拟合细节我们选择对角协方差GMM而非全协方差主要基于以下考虑计算效率对角协方差在大型语料库上更易处理频率独立性log-mel特征各维度相对独立参数稳定性避免小样本情况下的奇异矩阵软后验计算如下qₖ(m) πₖN(m; μₖ, σ²ₖ) / ∑ⱼπⱼN(m; μⱼ, σ²ⱼ)其中πₖ是混合权重μₖ和σ²ₖ分别是第k个高斯组分的均值和方差。2.3 联合训练机制2.3.1 JEPA损失L_JEPA 1/|M| ∑_{t∈M} ||hψ(z̃_student)_t - z_teacher,t||²其中M是掩码位置集合hψ是预测器z̃_student是带掩码的学生表示z_teacher是教师表示2.3.2 聚类损失使用KL散度衡量聚类头输出与GMM后验的差异L_cluster 1/|M| ∑_{t∈M} KL(q_gmm,t || p_cluster,t)2.3.3 总损失采用线性衰减的加权方案L_total L_JEPA λ(t)·L_cluster λ(t) λ_start (λ_end - λ_start)·t/T_max典型设置为λ_start1.0λ_end0.01。3. 实现细节与优化3.1 数据增强策略为提高模型鲁棒性我们采用两种增强方式3.1.1 噪声添加x_aug x_clean α·n α sqrt(E_clean / (10^(SNR/10)·E_noise))其中SNR从[-5,20]dB随机采样应用概率25%3.1.2 语句混合x_mix[t1:t2] x1[t1:t2] β·x2[s1:s2] β sqrt(E1·10^(ρ/10)/E2)其中ρ从[-5,5]dB随机采样最大重叠50%应用概率25%3.2 模型架构3.2.1 编码器设计采用跨步卷积Conformer堆栈初始卷积k7, p3, 1→C0通道跨步块序列跨步卷积(k2s, strides)Snake-Beta激活残差块(膨胀卷积[1,3,5])密度自适应注意力Conformer堆栈(4层)半步前馈(扩展因子4)多头自注意力(32头)深度可分离卷积(k31)总跨步[8×8×5]320对应16kHz下的20ms帧。3.2.2 注意力机制创新采用门控相对位置偏置对数分桶处理远距离位置bucket(i-j) |i-j| if |i-j|B/4 B/4 (B/4)·log(|i-j|/(B/4))/log(D_max/(B/4)) otherwise基于查询的门控g_update σ(q·u) g_reset σ(q·w)其中u,w是可学习向量。4. 实验与分析4.1 实验设置数据约50k小时语音(LibriLight大子集English Granary)基线Pure JEPA(λ0)WavLM-style(相同架构k-means)评估任务ASR(LibriSpeech)情感识别(IEMOCAP)槽位填充(SNIPS)4.2 主要结果4.2.1 语音识别(WER)模型WER(%)相对改进Pure JEPA100.00-WavLM-style33.22基线GMM-JEPA29.18-12.2%GMM-JEPA-T28.68-13.7%4.2.2 槽位填充(F1)模型Type F1相对改进Pure JEPA5.0-WavLM-style59.1基线GMM-JEPA64.75.64.2.3 情感识别(准确率)模型平均准确率相对改进WavLM-style65.46基线GMM-JEPA67.301.8GMM-JEPA-T67.762.34.3 聚类质量分析4.3.1 熵与聚类使用模型熵(%)使用聚类数Pure JEPA45516/1024WavLM-style31978/1024GMM-JEPA851007/1024GMM-JEPA-T981013/10244.3.2 可视化分析UMAP投影显示Pure JEPA塌缩到小密集区域WavLM-style扩散重叠的聚类GMM-JEPA局部化、分离良好的聚类区域5. 关键发现与讨论5.1 残差监督的必要性当λ_end0时模型性能显著下降WER从29.18%升至40.95%熵从84.7%降至57.7%使用聚类数从1011降至506这表明GMM锚定不仅是初始化手段更是持续的稳定器。5.2 架构通用性方法在两种架构上均有效Conformer-based(GMM-JEPA)Transformer-based(GMM-JEPA-T)特别地Transformer版本语音识别表现最佳(28.68% WER)聚类熵最高(98%)音素对齐最好(NMI0.24)5.3 软聚类的优势相比硬聚类保留声学边界不确定性提供更丰富的监督信号实现更均匀的聚类使用(98% vs 31%熵)6. 实际应用建议基于我们的实验经验给出以下实施建议GMM配置从K512开始根据GPU内存逐步增加使用对角协方差确保训练稳定性在10%数据上预拟合确定合适K值训练技巧初始λ1.0保持至少10%训练时长线性衰减到λ0.01效果最佳最终λ不宜设为0建议保持微小值(0.01-0.05)数据增强SNR范围[-5,20]dB效果均衡语句混合比例控制在25%-30%能量归一化避免幅值失真架构选择需要音素级任务优先Transformer需要说话人特征优先Conformer内存受限时减少Conformer层数实测中发现当batch size较小时(如256)适当增大λ_end(如0.05)有助于稳定训练。