【位置编码】RoPE 1 RoPE旋转位置编码的公式是什么1.1 旋转矩阵θ旋转角度1.2 RoPE 编码公式mtoken 的绝对位置i特征维度下标第 i 维的基础角度d特征总维度原始特征值加入位置编码后的特征值将位置信息通过旋转矩阵注入 Q/K让内积自动包含相对位置信息无显式位置嵌入。2. RoPE 的核心思想是什么不单独加位置 embedding而是通过旋转矩阵对 Q、K 的相邻维度做旋转把绝对位置信息编码进向量让注意力内积自动体现相对位置关系。3. 为什么 RoPE 只旋转 Q 和 K不旋转 V注意力分数由Q·K^T计算位置信息只需要影响相似度匹配Value 只负责信息聚合不需要位置信息旋转会破坏语义无收益还增加计算。4. RoPE 如何天然支持相对位置两个不同位置m、n的 Q、K 做内积时旋转角度会抵消成位置差 m−n因此注意力分数只和相对位置有关和绝对位置无关。5. RoPE 的长度外推问题是什么怎么解决训练长度外的位置θ衰减过快导致编码失效模型泛化变差。常见优化NTK-RoPE、Dynamic NTK、PI 位置插值拉伸角度频率适配更长文本。