一、研究背景与核心问题1. 多语言 RAG 的发展与挑战多语言检索增强生成mRAG作为传统 RAG 的扩展通过整合多语言外部知识能为不同语言用户提供上下文感知的准确响应在跨语言信息获取、多语种客服等场景中具有重要价值。但现有 mRAG 系统面临三大核心挑战语言差异导致的检索难题查询与文档的语言不一致会造成语义鸿沟影响相关信息的准确召回多源冲突引发的生成不一致不同语言来源的知识可能存在矛盾导致生成结果混乱未被充分关注的语言偏好问题检索器和生成器可能系统性偏好某些语言忽略低资源语言中的相关信息最终导致输出不准确、有偏见。2. 语言偏好的核心危害如图 1 所示语言偏好会通过两个关键环节损害 mRAG 性能检索阶段Case 1检索器优先选择高资源语言或查询语言的文档即使低资源语言中存在更相关的信息如西班牙语查询 “2016 年环球小姐冠军”韩语相关文档未被召回导致生成错误答案生成阶段Case 2即使检索到多语言相关文档生成器也可能只依赖偏好语言如查询语言或拉丁字母语言的信息忽略其他语言的关键证据造成输出偏差。3. 研究核心问题论文围绕三个关键研究问题展开旨在全面解析并解决 mRAG 的语言偏好问题RQ1检索器更偏好哪些语言其偏好受哪些因素影响RQ2生成器更偏好哪些语言这些偏好与 mRAG 整体性能存在怎样的关联RQ3如何有效缓解 mRAG 系统中的语言偏好提升多语言场景下的性能一致性二、核心创新语言偏好量化指标 MLRS为精准衡量检索器的语言偏好论文提出多语言排名偏移MultiLingualRankShift, MLRS指标通过对比非查询语言文档翻译前后的排名变化量化检索器对特定语言的偏好程度。1. MLRS 计算流程MLRS 的核心逻辑是若检索器偏好查询语言则将非查询语言文档翻译为查询语言后其排名应显著提升。具体步骤如下初始文档检索对查询q语言Lq从多语言数据存储中检索文档集合Dq为每个文档d语言Ld分配初始排名rdinit非查询语言文档翻译提取Dq中语言与q不一致的文档子集Dqdiff将其全部翻译为Lq得到DqTranslated重排与排名变化计算用检索器对DqTranslated重排得到新排名rdre−rank计算排名提升量Δrdmax(rdinit−rdre−rank,0)仅统计排名上升的情况MLRS 分数归一化定义单文档最大可能提升量Δrdmaxrdinit−1查询级 MLRS 为实际总提升量与最大总提升量的比值全局 MLRS 为所有查询的平均值MLRSq⎩⎨⎧∑d∈DqTranslatedΔrdmax∑d∈DqTranslatedΔrd×100,0,if∑Δrdmax0,otherwise.MLRS∣Q∣1∑q∈QMLRSq2. MLRS 的有效性验证通过与检索文档的语言分布比例对比MLRS 与文档语言占比的皮尔逊相关系数达 0.986p 值 7.75e-10斯皮尔曼相关系数达 0.863p 值 1.47e-4证明该指标能准确反映检索器的语言偏好。三、实验设置1. 数据集与模型配置表格组件具体选择评估数据集MKQA25 种语言2.7K 重叠样本知识源自 English Wikipedia搭配 KILT NQ 补充文档信息数据存储英文 WikipediaKILT 版本 用户母语 Wikipedia检索器BGE-m3主检索器、paraphrase-multilingual-MiniLM-L12-v2p-mMiniLM、paraphrase-multilingual-mpnet-base-v2p-mMpNet生成器aya-expanse-8B、Qwen2.5-7B-Instruct、Phi-4 14B、Llama-3.1-8B-Instruct翻译模型NLLB-200distilled-600M多语言翻译、GPT-4o-mini高质量翻译对比实验评估指标检索偏好MLRS生成性能字符 3-gram 召回率语义相似度LaBSE基线方法BergenChirkova et al., 2024多语言 RAG 标准流程2. 实验设计检索器偏好实验覆盖 8 种语言英、韩、中、法、日、意、葡、西分为单语LqLd和跨语LqLd场景探究语言相关性、资源量对偏好的影响生成器偏好实验固定检索文档集让生成器用 8 种语言输出答案通过语义相似度矩阵分析偏好性能关联实验对比不同语言文档输入下的生成性能分析偏好与性能的相关性缓解方案实验验证 DKM-RAG 框架在不同查询语言英、韩、中下的性能提升。四、实验结果与关键发现1. 检索器的语言偏好规律RQ11语言相关性的影响单语场景偏好最强当LqLd时MLRS 分数最高如英文查询的英文文档 MLRS 达 56.03-57.49直接语言对齐避免了跨语映射损耗跨语场景偏好下降但英文例外跨语设置下 MLRS 普遍低于单语但当文档翻译为英文时偏好分数接近甚至超过单语如韩语查询的英文文档 MLRS 达 43.49-44.98高于部分单语场景反映英文作为高资源语言的主导地位语言家族相似度促进偏好罗曼语族法、意、葡、西、东亚语言中、日、韩内部的跨语 MLRS 更高 lexical 和结构相似性降低了语义鸿沟。2语言资源量的影响文档语言资源量起决定性作用高资源语言英文档的 MLRS 显著高于中资源西和低资源韩呈现 “高 中 低” 的稳定趋势查询语言资源量影响有限无论查询是高、中还是低资源语言检索器对高资源文档的偏好均一致说明预训练数据中的高资源语言偏见主导了检索行为。3翻译质量的影响高质量翻译如 GPT-4o-mini会放大语言偏好差异使高资源语言的偏好优势更显著验证了 MLRS 指标对翻译质量的鲁棒性。2. 生成器的语言偏好规律RQ21生成器的核心偏好强偏好拉丁字母语言无论查询语言是什么生成器在英文、法语、意大利语等拉丁字母语言上的输出语义一致性更高相似度 0.85-0.95而非拉丁语言中、日、韩的一致性较低0.70-0.85原因是拉丁字母的 token 对齐更高效弱偏好查询语言当输出语言与查询语言一致时语义一致性略有提升但提升幅度有限如韩语查询的韩语输出相似度较英文输出高 0.02-0.03远不及拉丁字母语言的偏好强度。2偏好与性能的关联英文查询偏好与性能强相关英文文档输入的生成性能最高“多语言文档融合all 策略” 因利用跨语知识更优非英文查询偏好与性能弱相关生成器虽偏好英文文档但将文档翻译为查询语言时性能最优如中文查询的中文文档输入召回率 38.31-38.48远高于英文文档的 24.36-27.33语言一致性比资源量更重要最优策略分化英文查询适合 “多语言文档融合”非英文查询适合 “文档翻译为查询语言”。3. DKM-RAG语言偏好缓解方案RQ31框架设计思路翻译文档虽能缓解检索偏好但可能引入高资源语言的无关内容而 LLM 的内部知识可过滤噪声、补充关键信息。DKM-RAG 通过融合 “外部翻译文档” 与 “内部精炼文档”实现双知识互补流程如下检索与重排用 “多语言文档融合” 策略检索并重排 Top-50 文档筛选 Top-5 相关文档翻译文档生成Ptranslated将非查询语言文档翻译为Lq确保语言一致性精炼文档生成Prefined用 LLM 作为重写器结合自身知识精炼Ptranslated去除冗余、补充缺失信息如补充翻译文档中未提及的 “美国总统属于行政分支” 这一关键知识融合生成将Ptranslated与Prefined拼接作为输入生成最终答案。2实验结果DKM-RAG 在所有查询语言场景中均显著超越基线英文查询字符 3-gram 召回率达 82.57-82.60较 “多语言文档融合” 基线80.09-80.25提升约 2.5 个百分点中文查询召回率从 38.48 提升至 44.51-44.70提升幅度超 6 个百分点韩语查询召回率从 49.87 提升至 54.82-55.01提升约 5 个百分点。3消融实验验证移除Prefined仅用翻译文档或Ptranslated仅用精炼文档均会导致性能下降证明双知识融合的必要性无Prefined英文查询召回率降至 78.89-79.34中文降至 36.76-38.48无Ptranslated英文查询召回率降至 81.06-81.19中文降至 38.95-39.78。五、相关工作对比表格研究方向代表性工作与本文的差异多语言 RAG 优化Chirkova et al. (2024)、Deshpande et al. (2024)聚焦低资源语言性能提升未关注语言偏好量化语言偏好缓解Telemala et al. (2022)、Yang et al. (2024a)仅针对检索阶段缺乏生成阶段分析无统一量化指标多语言知识一致性Qi et al. (2023)、Sharma et al. (2024)关注知识准确性未涉及 RAG 全流程的偏好问题本文贡献-1. 提出 MLRS 指标量化检索器偏好2. 揭示生成器偏好规律3. 提出双知识融合框架缓解全流程偏好六、研究贡献与局限1. 核心贡献概念与指标创新首次系统性定义 mRAG 的语言偏好问题提出 MLRS 指标实现检索器偏好的量化评估为领域研究提供标准化工具规律发现揭示检索器偏好高资源 查询语言与生成器偏好拉丁字母 弱偏好查询语言的偏好规律以及偏好与性能的关联机制实用框架提出 DKM-RAG通过双知识融合高效缓解语言偏好在多语言场景中稳定提升性能且实现简单、易集成实验支撑基于 8 种语言、4 种生成器、多类场景的大规模实验验证了结论的通用性与鲁棒性。2. 局限性依赖翻译质量MLRS 计算和 DKM-RAG 的翻译步骤易受翻译错误影响可能引入语义失真计算开销增加MLRS 的翻译 重排步骤、DKM-RAG 的精炼步骤均会增加 latency不适合实时场景框架融合方式简单DKM-RAG 采用拼接式融合未涉及可训练的动态融合机制场景覆盖有限实验聚焦 Wikipedia 数据集未涉及专业领域或超低资源语言如非洲语系。七、未来方向优化融合机制设计可训练的动态加权融合模块替代简单拼接提升双知识的协同效果降低计算开销探索轻量化翻译模型或无翻译的跨语表征对齐方法适配实时场景扩展场景覆盖将框架应用于专业领域如医疗、法律和超低资源语言验证泛化性增强公平性引入语言公平性约束在缓解偏好的同时保障低资源语言的性能不被牺牲。八、附加资源代码开源https://github.com/jeonghyunpark2002/LanguagePreference.git关键数据集MKQA25 种语言、KILT NQ文档补充、Wikipedia 多语言语料核心工具MLRS 指标计算脚本、DKM-RAG 框架实现支持 BGE-m3、Qwen2.5 等主流模型。
Investigating Language Preference of Multilingual RAG Systems
发布时间:2026/6/21 2:02:53
一、研究背景与核心问题1. 多语言 RAG 的发展与挑战多语言检索增强生成mRAG作为传统 RAG 的扩展通过整合多语言外部知识能为不同语言用户提供上下文感知的准确响应在跨语言信息获取、多语种客服等场景中具有重要价值。但现有 mRAG 系统面临三大核心挑战语言差异导致的检索难题查询与文档的语言不一致会造成语义鸿沟影响相关信息的准确召回多源冲突引发的生成不一致不同语言来源的知识可能存在矛盾导致生成结果混乱未被充分关注的语言偏好问题检索器和生成器可能系统性偏好某些语言忽略低资源语言中的相关信息最终导致输出不准确、有偏见。2. 语言偏好的核心危害如图 1 所示语言偏好会通过两个关键环节损害 mRAG 性能检索阶段Case 1检索器优先选择高资源语言或查询语言的文档即使低资源语言中存在更相关的信息如西班牙语查询 “2016 年环球小姐冠军”韩语相关文档未被召回导致生成错误答案生成阶段Case 2即使检索到多语言相关文档生成器也可能只依赖偏好语言如查询语言或拉丁字母语言的信息忽略其他语言的关键证据造成输出偏差。3. 研究核心问题论文围绕三个关键研究问题展开旨在全面解析并解决 mRAG 的语言偏好问题RQ1检索器更偏好哪些语言其偏好受哪些因素影响RQ2生成器更偏好哪些语言这些偏好与 mRAG 整体性能存在怎样的关联RQ3如何有效缓解 mRAG 系统中的语言偏好提升多语言场景下的性能一致性二、核心创新语言偏好量化指标 MLRS为精准衡量检索器的语言偏好论文提出多语言排名偏移MultiLingualRankShift, MLRS指标通过对比非查询语言文档翻译前后的排名变化量化检索器对特定语言的偏好程度。1. MLRS 计算流程MLRS 的核心逻辑是若检索器偏好查询语言则将非查询语言文档翻译为查询语言后其排名应显著提升。具体步骤如下初始文档检索对查询q语言Lq从多语言数据存储中检索文档集合Dq为每个文档d语言Ld分配初始排名rdinit非查询语言文档翻译提取Dq中语言与q不一致的文档子集Dqdiff将其全部翻译为Lq得到DqTranslated重排与排名变化计算用检索器对DqTranslated重排得到新排名rdre−rank计算排名提升量Δrdmax(rdinit−rdre−rank,0)仅统计排名上升的情况MLRS 分数归一化定义单文档最大可能提升量Δrdmaxrdinit−1查询级 MLRS 为实际总提升量与最大总提升量的比值全局 MLRS 为所有查询的平均值MLRSq⎩⎨⎧∑d∈DqTranslatedΔrdmax∑d∈DqTranslatedΔrd×100,0,if∑Δrdmax0,otherwise.MLRS∣Q∣1∑q∈QMLRSq2. MLRS 的有效性验证通过与检索文档的语言分布比例对比MLRS 与文档语言占比的皮尔逊相关系数达 0.986p 值 7.75e-10斯皮尔曼相关系数达 0.863p 值 1.47e-4证明该指标能准确反映检索器的语言偏好。三、实验设置1. 数据集与模型配置表格组件具体选择评估数据集MKQA25 种语言2.7K 重叠样本知识源自 English Wikipedia搭配 KILT NQ 补充文档信息数据存储英文 WikipediaKILT 版本 用户母语 Wikipedia检索器BGE-m3主检索器、paraphrase-multilingual-MiniLM-L12-v2p-mMiniLM、paraphrase-multilingual-mpnet-base-v2p-mMpNet生成器aya-expanse-8B、Qwen2.5-7B-Instruct、Phi-4 14B、Llama-3.1-8B-Instruct翻译模型NLLB-200distilled-600M多语言翻译、GPT-4o-mini高质量翻译对比实验评估指标检索偏好MLRS生成性能字符 3-gram 召回率语义相似度LaBSE基线方法BergenChirkova et al., 2024多语言 RAG 标准流程2. 实验设计检索器偏好实验覆盖 8 种语言英、韩、中、法、日、意、葡、西分为单语LqLd和跨语LqLd场景探究语言相关性、资源量对偏好的影响生成器偏好实验固定检索文档集让生成器用 8 种语言输出答案通过语义相似度矩阵分析偏好性能关联实验对比不同语言文档输入下的生成性能分析偏好与性能的相关性缓解方案实验验证 DKM-RAG 框架在不同查询语言英、韩、中下的性能提升。四、实验结果与关键发现1. 检索器的语言偏好规律RQ11语言相关性的影响单语场景偏好最强当LqLd时MLRS 分数最高如英文查询的英文文档 MLRS 达 56.03-57.49直接语言对齐避免了跨语映射损耗跨语场景偏好下降但英文例外跨语设置下 MLRS 普遍低于单语但当文档翻译为英文时偏好分数接近甚至超过单语如韩语查询的英文文档 MLRS 达 43.49-44.98高于部分单语场景反映英文作为高资源语言的主导地位语言家族相似度促进偏好罗曼语族法、意、葡、西、东亚语言中、日、韩内部的跨语 MLRS 更高 lexical 和结构相似性降低了语义鸿沟。2语言资源量的影响文档语言资源量起决定性作用高资源语言英文档的 MLRS 显著高于中资源西和低资源韩呈现 “高 中 低” 的稳定趋势查询语言资源量影响有限无论查询是高、中还是低资源语言检索器对高资源文档的偏好均一致说明预训练数据中的高资源语言偏见主导了检索行为。3翻译质量的影响高质量翻译如 GPT-4o-mini会放大语言偏好差异使高资源语言的偏好优势更显著验证了 MLRS 指标对翻译质量的鲁棒性。2. 生成器的语言偏好规律RQ21生成器的核心偏好强偏好拉丁字母语言无论查询语言是什么生成器在英文、法语、意大利语等拉丁字母语言上的输出语义一致性更高相似度 0.85-0.95而非拉丁语言中、日、韩的一致性较低0.70-0.85原因是拉丁字母的 token 对齐更高效弱偏好查询语言当输出语言与查询语言一致时语义一致性略有提升但提升幅度有限如韩语查询的韩语输出相似度较英文输出高 0.02-0.03远不及拉丁字母语言的偏好强度。2偏好与性能的关联英文查询偏好与性能强相关英文文档输入的生成性能最高“多语言文档融合all 策略” 因利用跨语知识更优非英文查询偏好与性能弱相关生成器虽偏好英文文档但将文档翻译为查询语言时性能最优如中文查询的中文文档输入召回率 38.31-38.48远高于英文文档的 24.36-27.33语言一致性比资源量更重要最优策略分化英文查询适合 “多语言文档融合”非英文查询适合 “文档翻译为查询语言”。3. DKM-RAG语言偏好缓解方案RQ31框架设计思路翻译文档虽能缓解检索偏好但可能引入高资源语言的无关内容而 LLM 的内部知识可过滤噪声、补充关键信息。DKM-RAG 通过融合 “外部翻译文档” 与 “内部精炼文档”实现双知识互补流程如下检索与重排用 “多语言文档融合” 策略检索并重排 Top-50 文档筛选 Top-5 相关文档翻译文档生成Ptranslated将非查询语言文档翻译为Lq确保语言一致性精炼文档生成Prefined用 LLM 作为重写器结合自身知识精炼Ptranslated去除冗余、补充缺失信息如补充翻译文档中未提及的 “美国总统属于行政分支” 这一关键知识融合生成将Ptranslated与Prefined拼接作为输入生成最终答案。2实验结果DKM-RAG 在所有查询语言场景中均显著超越基线英文查询字符 3-gram 召回率达 82.57-82.60较 “多语言文档融合” 基线80.09-80.25提升约 2.5 个百分点中文查询召回率从 38.48 提升至 44.51-44.70提升幅度超 6 个百分点韩语查询召回率从 49.87 提升至 54.82-55.01提升约 5 个百分点。3消融实验验证移除Prefined仅用翻译文档或Ptranslated仅用精炼文档均会导致性能下降证明双知识融合的必要性无Prefined英文查询召回率降至 78.89-79.34中文降至 36.76-38.48无Ptranslated英文查询召回率降至 81.06-81.19中文降至 38.95-39.78。五、相关工作对比表格研究方向代表性工作与本文的差异多语言 RAG 优化Chirkova et al. (2024)、Deshpande et al. (2024)聚焦低资源语言性能提升未关注语言偏好量化语言偏好缓解Telemala et al. (2022)、Yang et al. (2024a)仅针对检索阶段缺乏生成阶段分析无统一量化指标多语言知识一致性Qi et al. (2023)、Sharma et al. (2024)关注知识准确性未涉及 RAG 全流程的偏好问题本文贡献-1. 提出 MLRS 指标量化检索器偏好2. 揭示生成器偏好规律3. 提出双知识融合框架缓解全流程偏好六、研究贡献与局限1. 核心贡献概念与指标创新首次系统性定义 mRAG 的语言偏好问题提出 MLRS 指标实现检索器偏好的量化评估为领域研究提供标准化工具规律发现揭示检索器偏好高资源 查询语言与生成器偏好拉丁字母 弱偏好查询语言的偏好规律以及偏好与性能的关联机制实用框架提出 DKM-RAG通过双知识融合高效缓解语言偏好在多语言场景中稳定提升性能且实现简单、易集成实验支撑基于 8 种语言、4 种生成器、多类场景的大规模实验验证了结论的通用性与鲁棒性。2. 局限性依赖翻译质量MLRS 计算和 DKM-RAG 的翻译步骤易受翻译错误影响可能引入语义失真计算开销增加MLRS 的翻译 重排步骤、DKM-RAG 的精炼步骤均会增加 latency不适合实时场景框架融合方式简单DKM-RAG 采用拼接式融合未涉及可训练的动态融合机制场景覆盖有限实验聚焦 Wikipedia 数据集未涉及专业领域或超低资源语言如非洲语系。七、未来方向优化融合机制设计可训练的动态加权融合模块替代简单拼接提升双知识的协同效果降低计算开销探索轻量化翻译模型或无翻译的跨语表征对齐方法适配实时场景扩展场景覆盖将框架应用于专业领域如医疗、法律和超低资源语言验证泛化性增强公平性引入语言公平性约束在缓解偏好的同时保障低资源语言的性能不被牺牲。八、附加资源代码开源https://github.com/jeonghyunpark2002/LanguagePreference.git关键数据集MKQA25 种语言、KILT NQ文档补充、Wikipedia 多语言语料核心工具MLRS 指标计算脚本、DKM-RAG 框架实现支持 BGE-m3、Qwen2.5 等主流模型。