运动估计Motion Estimation, ME是视频编码的核心模块其性能直接决定了整个编码器的压缩效率和实时性。在 HEVCHigh Efficiency Video Coding标准中为了应对高分辨率4K/8K和高帧率视频的挑战运动估计算法在块划分结构、预测模式、搜索策略以及硬件友好性方面进行了颠覆性的革新。一图总结一句话总结HEVC 运动估计算法以四叉树块划分为核心通过高精度的 Merge/AMVP 矢量预测与 8 抽头分数像素内插在率失真优化RDO驱动下实现高压缩效率与硬件并行性的最佳平衡。基于树状划分的运动估计基本架构HEVC 彻底摒弃了 H.264/AVC 沿用多年的16×1616 \times 1616×16固定宏块Macroblock限制引入了基于四叉树Quad-tree的灵活划分结构。这一改变直接重构了运动估计的执行单元。CTU、CU 与 PU 的层级关系CTUCoding Tree Unit编码树单元运动估计的基础阵列尺寸最高可达64×6464 \times 6464×64。对于高清/超高清视频中的大面积平滑区域如天空、背景大尺寸的 CTU 能极大地提高运动矢量的压缩率。CUCoding Unit编码单元CTU 通过四叉树递归划分形成的叶子节点尺寸从64×6464 \times 6464×64到8×88 \times 88×8不等。CU 是选择帧内或帧间预测的决策单元。PUPrediction Unit预测单元运动估计与运动补偿的实际执行单元。在 CU 层级决定采用帧间预测后CU 会根据纹理复杂程度进一步划分为一个或多个 PU。PU 的划分模式Partition ModesHEVC 为帧间预测提供了 8 种 PU 划分模式分为两大类对称划分SMP2Nx2N、2NxN、Nx2N以及仅在最小 CUSCU中使用的NxN。非对称划分AMP2NxnU、2NxnD、nLx2N、nRx2N。AMP 的引入能够精准拟合非中心对称的复杂边缘运动例如车辆在地平线上移动大幅减少预测残差。运动估计的挑战这种多层级、多模式的嵌套使得运动估计的搜索空间呈指数级增长。编码器必须在成百上千种可能的块组合中为每一个 PU 寻找到最优的运动矢量Motion Vector, MV。现代运动矢量预测机制Advanced MV Prediction为了减少传输 MV 所占用的码流HEVC 设计了极具创新性的运动矢量预测技术。通过重用时域和空域相邻块的运动信息运动估计算法可以建立极高精度的预测起点。Merge / Skip 模式Merge 模式是 HEVC 提升压缩效率的杀手锏。它不直接编码当前 PU 的 MV而是建立一个候选列表Candidate List直接“借用”相邻块的运动参数包括 MV、参考帧索引、单向/双向预测方向。空间候选Spatial检查左、上、右上、左下、左上五个相邻 PU 的运动信息取最多 4 个。时域候选TMVP利用前/后参考帧中对应位置Collocated的 PU 运动矢量并通过时域距离进行线性缩放。组合与零候选若列表未满通过组合双向或填充零向量补齐。Skip 模式当 Merge 模式下的预测残差接近于零时直接触发 Skip 模式此时不传输任何残差和 MV 差值仅传输一个候选列表索引极大节省了码字。AMVPAdvanced Motion Vector Prediction模式当当前 PU 无法直接借用相邻块的 MV 时采用 AMVP 模式。AMVP 同样构建空域和时域候选列表容量固定为 2选出最佳的运动矢量预测值MVP。运动估计模块仅需对实际搜索到的MVMVMV与MVPMVPMVP的差值MVDMV−MVPMVD MV - MVPMVDMV−MVP进行编码。通过高精度的 AMVP使得MVDMVDMVD的能级降到最低从而优化了熵编码的效率。多层次运动检索算法从整像素到分数像素在确定了预测起点MVP后运动估计进入实质性的像素搜索阶段。HEVC 采用了“粗定位 精细调优”的两阶段搜索架构。整像素运动搜索Integer-Pixel ME整像素搜索阶段的目标是在搜索窗口内快速锁定最佳匹配块的大致位置。为了平衡计算复杂度和全局最优性业界和标准参考软件HM主要采用以下算法TZSearchTest Zone Search算法HM 软件中默认的非全字搜索算法。它结合了菱形搜索Diamond Search和光栅扫描Raster Scan。首先以 MVP 为中心进行步长为 1, 2, 4, 8… 的菱形搜索若发现局部最优解则启动两点细化为防陷入局部最优还会定期进行全局光栅扫描。三步搜索3SS与新三步搜索N3SS硬件流水线设计中常用的启发式搜索通过逐步缩小步长和搜索窗口来降低计算量。高精度分数像素内插与搜索真实世界中的物体运动极少精准落在整像素网格上。HEVC 将运动估计的精度提升到了1/4 像素Quarter-Pixel并对内插滤波器进行了重大升级。亮度内插滤波器*1/2 像素位置采用8 抽头8-tap严格推导的 DCT 抽头滤波器H.264 为 6 抽头。1/4 像素位置采用7 抽头7-tap滤波器。更长、更精确的滤波器能够有效保留高频纹理避免多次内插导致的图像模糊从而使运动补偿的残差能量大幅下降。色度内插滤波器针对 4:2:0 采样色度达到1/8 像素精度采用 4 抽头滤波器。分数像素搜索策略通常以整像素最佳点为中心先对周围 8 个 1/2 像素点进行搜索评估锁定最优 1/2 像素点后再在其周围的 1/4 像素点中进行最终的精细搜索。率失真优化RDO驱动的决策准则运动估计的核心不是一味寻找残差最小的点而是在“残差失真Distortion”与“编码码流Rate”之间寻找最佳平衡点。率失真代价函数RD Cost在运动估计过程中每一个候选 MV 的评估都遵循以下代价公式JMEDλmotion⋅RmotionJ_{ME} D \lambda_{motion} \cdot R_{motion}JMEDλmotion⋅RmotionJMEJ_{ME}JME当前运动估计的综合代价。DDD失真代表预测残差的轻重。在整像素搜索阶段为了提高计算速度通常使用SAD绝对误差和或SATD哈达玛变换后的绝对误差和代替真正的 SSE平方误差和。RmotionR_{motion}Rmotion码率编码当前MVDMVDMVD序列以及参考帧索引所需的估计比特数。λmotion\lambda_{motion}λmotion拉格朗日乘子由当前量化参数QP决定。模式决策的阶梯性筛选由于 RDO 计算尤其是带有量化和熵编码的完整线代价极高HEVC 运动估计采用了多级剪枝策略。首先利用 SAD 快速排除绝大多数整像素点接着用 SATD 在分数像素和 PU 模式选择间进行细筛最后仅对极少数表现最优的组合进行完整的 RDO 算力评估在保证压缩率的同时极大地扼制了算力暴涨。算法的硬件友好性优化与演进趋势尽管 HEVC 的运动估计算法带来了极高的压缩比但其恐怖的计算复杂度给实际落地特别是实时超高清编码带来了巨大挑战。因此现代 HEVC 运动估计的设计重点已向硬件流水线兼容性倾斜。硬件友好型优化设计数据依赖性消除在时域运动矢量预测TMVP中限制参考缓存的访问范围防止硬件设计中 DDR 带宽因频繁读取前向帧的 MV 而崩溃。并行合并/预测Merge Estimation Region, MER允许并行计算相邻块的 Merge 列表打破了传统的逐块串行依赖使 GPU/FPGA 上的大规模并行处理成为可能。AMP 模式的快速跳过通过分析2Nx2N块的残差能量和运动向量均匀度提前预测是否需要启动复杂的非对称划分从而跳过 70% 以上不必要的运动搜索。总结与未来演进HEVC 运动估计算法通过四叉树灵活拓扑、高精度的 AMVP/Merge 预测机制、8-tap 高级分数像素内插以及严格的 RDO 决策相比 H.264 提升了近 50% 的压缩效率。随着 4K/8K 视频和超低延时直播场景的全面普及当下的 HEVC 运动估计正在深度融合机器学习与 AI 预测如利用神经网络提前预测 CU/PU 划分剪枝并为下一代 VVCH.266中更复杂的仿射运动估计Affine ME和光流修正BIO奠定了坚实的架构基础。
HEVC(十八):运动估计
发布时间:2026/6/25 12:35:30
运动估计Motion Estimation, ME是视频编码的核心模块其性能直接决定了整个编码器的压缩效率和实时性。在 HEVCHigh Efficiency Video Coding标准中为了应对高分辨率4K/8K和高帧率视频的挑战运动估计算法在块划分结构、预测模式、搜索策略以及硬件友好性方面进行了颠覆性的革新。一图总结一句话总结HEVC 运动估计算法以四叉树块划分为核心通过高精度的 Merge/AMVP 矢量预测与 8 抽头分数像素内插在率失真优化RDO驱动下实现高压缩效率与硬件并行性的最佳平衡。基于树状划分的运动估计基本架构HEVC 彻底摒弃了 H.264/AVC 沿用多年的16×1616 \times 1616×16固定宏块Macroblock限制引入了基于四叉树Quad-tree的灵活划分结构。这一改变直接重构了运动估计的执行单元。CTU、CU 与 PU 的层级关系CTUCoding Tree Unit编码树单元运动估计的基础阵列尺寸最高可达64×6464 \times 6464×64。对于高清/超高清视频中的大面积平滑区域如天空、背景大尺寸的 CTU 能极大地提高运动矢量的压缩率。CUCoding Unit编码单元CTU 通过四叉树递归划分形成的叶子节点尺寸从64×6464 \times 6464×64到8×88 \times 88×8不等。CU 是选择帧内或帧间预测的决策单元。PUPrediction Unit预测单元运动估计与运动补偿的实际执行单元。在 CU 层级决定采用帧间预测后CU 会根据纹理复杂程度进一步划分为一个或多个 PU。PU 的划分模式Partition ModesHEVC 为帧间预测提供了 8 种 PU 划分模式分为两大类对称划分SMP2Nx2N、2NxN、Nx2N以及仅在最小 CUSCU中使用的NxN。非对称划分AMP2NxnU、2NxnD、nLx2N、nRx2N。AMP 的引入能够精准拟合非中心对称的复杂边缘运动例如车辆在地平线上移动大幅减少预测残差。运动估计的挑战这种多层级、多模式的嵌套使得运动估计的搜索空间呈指数级增长。编码器必须在成百上千种可能的块组合中为每一个 PU 寻找到最优的运动矢量Motion Vector, MV。现代运动矢量预测机制Advanced MV Prediction为了减少传输 MV 所占用的码流HEVC 设计了极具创新性的运动矢量预测技术。通过重用时域和空域相邻块的运动信息运动估计算法可以建立极高精度的预测起点。Merge / Skip 模式Merge 模式是 HEVC 提升压缩效率的杀手锏。它不直接编码当前 PU 的 MV而是建立一个候选列表Candidate List直接“借用”相邻块的运动参数包括 MV、参考帧索引、单向/双向预测方向。空间候选Spatial检查左、上、右上、左下、左上五个相邻 PU 的运动信息取最多 4 个。时域候选TMVP利用前/后参考帧中对应位置Collocated的 PU 运动矢量并通过时域距离进行线性缩放。组合与零候选若列表未满通过组合双向或填充零向量补齐。Skip 模式当 Merge 模式下的预测残差接近于零时直接触发 Skip 模式此时不传输任何残差和 MV 差值仅传输一个候选列表索引极大节省了码字。AMVPAdvanced Motion Vector Prediction模式当当前 PU 无法直接借用相邻块的 MV 时采用 AMVP 模式。AMVP 同样构建空域和时域候选列表容量固定为 2选出最佳的运动矢量预测值MVP。运动估计模块仅需对实际搜索到的MVMVMV与MVPMVPMVP的差值MVDMV−MVPMVD MV - MVPMVDMV−MVP进行编码。通过高精度的 AMVP使得MVDMVDMVD的能级降到最低从而优化了熵编码的效率。多层次运动检索算法从整像素到分数像素在确定了预测起点MVP后运动估计进入实质性的像素搜索阶段。HEVC 采用了“粗定位 精细调优”的两阶段搜索架构。整像素运动搜索Integer-Pixel ME整像素搜索阶段的目标是在搜索窗口内快速锁定最佳匹配块的大致位置。为了平衡计算复杂度和全局最优性业界和标准参考软件HM主要采用以下算法TZSearchTest Zone Search算法HM 软件中默认的非全字搜索算法。它结合了菱形搜索Diamond Search和光栅扫描Raster Scan。首先以 MVP 为中心进行步长为 1, 2, 4, 8… 的菱形搜索若发现局部最优解则启动两点细化为防陷入局部最优还会定期进行全局光栅扫描。三步搜索3SS与新三步搜索N3SS硬件流水线设计中常用的启发式搜索通过逐步缩小步长和搜索窗口来降低计算量。高精度分数像素内插与搜索真实世界中的物体运动极少精准落在整像素网格上。HEVC 将运动估计的精度提升到了1/4 像素Quarter-Pixel并对内插滤波器进行了重大升级。亮度内插滤波器*1/2 像素位置采用8 抽头8-tap严格推导的 DCT 抽头滤波器H.264 为 6 抽头。1/4 像素位置采用7 抽头7-tap滤波器。更长、更精确的滤波器能够有效保留高频纹理避免多次内插导致的图像模糊从而使运动补偿的残差能量大幅下降。色度内插滤波器针对 4:2:0 采样色度达到1/8 像素精度采用 4 抽头滤波器。分数像素搜索策略通常以整像素最佳点为中心先对周围 8 个 1/2 像素点进行搜索评估锁定最优 1/2 像素点后再在其周围的 1/4 像素点中进行最终的精细搜索。率失真优化RDO驱动的决策准则运动估计的核心不是一味寻找残差最小的点而是在“残差失真Distortion”与“编码码流Rate”之间寻找最佳平衡点。率失真代价函数RD Cost在运动估计过程中每一个候选 MV 的评估都遵循以下代价公式JMEDλmotion⋅RmotionJ_{ME} D \lambda_{motion} \cdot R_{motion}JMEDλmotion⋅RmotionJMEJ_{ME}JME当前运动估计的综合代价。DDD失真代表预测残差的轻重。在整像素搜索阶段为了提高计算速度通常使用SAD绝对误差和或SATD哈达玛变换后的绝对误差和代替真正的 SSE平方误差和。RmotionR_{motion}Rmotion码率编码当前MVDMVDMVD序列以及参考帧索引所需的估计比特数。λmotion\lambda_{motion}λmotion拉格朗日乘子由当前量化参数QP决定。模式决策的阶梯性筛选由于 RDO 计算尤其是带有量化和熵编码的完整线代价极高HEVC 运动估计采用了多级剪枝策略。首先利用 SAD 快速排除绝大多数整像素点接着用 SATD 在分数像素和 PU 模式选择间进行细筛最后仅对极少数表现最优的组合进行完整的 RDO 算力评估在保证压缩率的同时极大地扼制了算力暴涨。算法的硬件友好性优化与演进趋势尽管 HEVC 的运动估计算法带来了极高的压缩比但其恐怖的计算复杂度给实际落地特别是实时超高清编码带来了巨大挑战。因此现代 HEVC 运动估计的设计重点已向硬件流水线兼容性倾斜。硬件友好型优化设计数据依赖性消除在时域运动矢量预测TMVP中限制参考缓存的访问范围防止硬件设计中 DDR 带宽因频繁读取前向帧的 MV 而崩溃。并行合并/预测Merge Estimation Region, MER允许并行计算相邻块的 Merge 列表打破了传统的逐块串行依赖使 GPU/FPGA 上的大规模并行处理成为可能。AMP 模式的快速跳过通过分析2Nx2N块的残差能量和运动向量均匀度提前预测是否需要启动复杂的非对称划分从而跳过 70% 以上不必要的运动搜索。总结与未来演进HEVC 运动估计算法通过四叉树灵活拓扑、高精度的 AMVP/Merge 预测机制、8-tap 高级分数像素内插以及严格的 RDO 决策相比 H.264 提升了近 50% 的压缩效率。随着 4K/8K 视频和超低延时直播场景的全面普及当下的 HEVC 运动估计正在深度融合机器学习与 AI 预测如利用神经网络提前预测 CU/PU 划分剪枝并为下一代 VVCH.266中更复杂的仿射运动估计Affine ME和光流修正BIO奠定了坚实的架构基础。