HEVC(十八)：运动估计

发布时间：2026/6/25 12:35:30

运动估计Motion Estimation, ME是视频编码的核心模块其性能直接决定了整个编码器的压缩效率和实时性。在 HEVCHigh Efficiency Video Coding标准中为了应对高分辨率4K/8K和高帧率视频的挑战运动估计算法在块划分结构、预测模式、搜索策略以及硬件友好性方面进行了颠覆性的革新。一图总结一句话总结HEVC 运动估计算法以四叉树块划分为核心通过高精度的 Merge/AMVP 矢量预测与 8 抽头分数像素内插在率失真优化RDO驱动下实现高压缩效率与硬件并行性的最佳平衡。基于树状划分的运动估计基本架构HEVC 彻底摒弃了 H.264/AVC 沿用多年的16×1616 \times 1616×16固定宏块Macroblock限制引入了基于四叉树Quad-tree的灵活划分结构。这一改变直接重构了运动估计的执行单元。CTU、CU 与 PU 的层级关系CTUCoding Tree Unit编码树单元运动估计的基础阵列尺寸最高可达64×6464 \times 6464×64。对于高清/超高清视频中的大面积平滑区域如天空、背景大尺寸的 CTU 能极大地提高运动矢量的压缩率。CUCoding Unit编码单元CTU 通过四叉树递归划分形成的叶子节点尺寸从64×6464 \times 6464×64到8×88 \times 88×8不等。CU 是选择帧内或帧间预测的决策单元。PUPrediction Unit预测单元运动估计与运动补偿的实际执行单元。在 CU 层级决定采用帧间预测后CU 会根据纹理复杂程度进一步划分为一个或多个 PU。PU 的划分模式Partition ModesHEVC 为帧间预测提供了 8 种 PU 划分模式分为两大类对称划分SMP2Nx2N、2NxN、Nx2N以及仅在最小 CUSCU中使用的NxN。非对称划分AMP2NxnU、2NxnD、nLx2N、nRx2N。AMP 的引入能够精准拟合非中心对称的复杂边缘运动例如车辆在地平线上移动大幅减少预测残差。运动估计的挑战这种多层级、多模式的嵌套使得运动估计的搜索空间呈指数级增长。编码器必须在成百上千种可能的块组合中为每一个 PU 寻找到最优的运动矢量Motion Vector, MV。现代运动矢量预测机制Advanced MV Prediction为了减少传输 MV 所占用的码流HEVC 设计了极具创新性的运动矢量预测技术。通过重用时域和空域相邻块的运动信息运动估计算法可以建立极高精度的预测起点。Merge / Skip 模式Merge 模式是 HEVC 提升压缩效率的杀手锏。它不直接编码当前 PU 的 MV而是建立一个候选列表Candidate List直接“借用”相邻块的运动参数包括 MV、参考帧索引、单向/双向预测方向。空间候选Spatial检查左、上、右上、左下、左上五个相邻 PU 的运动信息取最多 4 个。时域候选TMVP利用前/后参考帧中对应位置Collocated的 PU 运动矢量并通过时域距离进行线性缩放。组合与零候选若列表未满通过组合双向或填充零向量补齐。Skip 模式当 Merge 模式下的预测残差接近于零时直接触发 Skip 模式此时不传输任何残差和 MV 差值仅传输一个候选列表索引极大节省了码字。AMVPAdvanced Motion Vector Prediction模式当当前 PU 无法直接借用相邻块的 MV 时采用 AMVP 模式。AMVP 同样构建空域和时域候选列表容量固定为 2选出最佳的运动矢量预测值MVP。运动估计模块仅需对实际搜索到的MVMVMV与MVPMVPMVP的差值MVDMV−MVPMVD MV - MVPMVDMV−MVP进行编码。通过高精度的 AMVP使得MVDMVDMVD的能级降到最低从而优化了熵编码的效率。多层次运动检索算法从整像素到分数像素在确定了预测起点MVP后运动估计进入实质性的像素搜索阶段。HEVC 采用了“粗定位精细调优”的两阶段搜索架构。整像素运动搜索Integer-Pixel ME整像素搜索阶段的目标是在搜索窗口内快速锁定最佳匹配块的大致位置。为了平衡计算复杂度和全局最优性业界和标准参考软件HM主要采用以下算法TZSearchTest Zone Search算法HM 软件中默认的非全字搜索算法。它结合了菱形搜索Diamond Search和光栅扫描Raster Scan。首先以 MVP 为中心进行步长为 1, 2, 4, 8… 的菱形搜索若发现局部最优解则启动两点细化为防陷入局部最优还会定期进行全局光栅扫描。三步搜索3SS与新三步搜索N3SS硬件流水线设计中常用的启发式搜索通过逐步缩小步长和搜索窗口来降低计算量。高精度分数像素内插与搜索真实世界中的物体运动极少精准落在整像素网格上。HEVC 将运动估计的精度提升到了1/4 像素Quarter-Pixel并对内插滤波器进行了重大升级。亮度内插滤波器*1/2 像素位置采用8 抽头8-tap严格推导的 DCT 抽头滤波器H.264 为 6 抽头。1/4 像素位置采用7 抽头7-tap滤波器。更长、更精确的滤波器能够有效保留高频纹理避免多次内插导致的图像模糊从而使运动补偿的残差能量大幅下降。色度内插滤波器针对 4:2:0 采样色度达到1/8 像素精度采用 4 抽头滤波器。分数像素搜索策略通常以整像素最佳点为中心先对周围 8 个 1/2 像素点进行搜索评估锁定最优 1/2 像素点后再在其周围的 1/4 像素点中进行最终的精细搜索。率失真优化RDO驱动的决策准则运动估计的核心不是一味寻找残差最小的点而是在“残差失真Distortion”与“编码码流Rate”之间寻找最佳平衡点。率失真代价函数RD Cost在运动估计过程中每一个候选 MV 的评估都遵循以下代价公式JMEDλmotion⋅RmotionJ_{ME} D \lambda_{motion} \cdot R_{motion}JMEDλmotion⋅RmotionJMEJ_{ME}JME当前运动估计的综合代价。DDD失真代表预测残差的轻重。在整像素搜索阶段为了提高计算速度通常使用SAD绝对误差和或SATD哈达玛变换后的绝对误差和代替真正的 SSE平方误差和。RmotionR_{motion}Rmotion码率编码当前MVDMVDMVD序列以及参考帧索引所需的估计比特数。λmotion\lambda_{motion}λmotion拉格朗日乘子由当前量化参数QP决定。模式决策的阶梯性筛选由于 RDO 计算尤其是带有量化和熵编码的完整线代价极高HEVC 运动估计采用了多级剪枝策略。首先利用 SAD 快速排除绝大多数整像素点接着用 SATD 在分数像素和 PU 模式选择间进行细筛最后仅对极少数表现最优的组合进行完整的 RDO 算力评估在保证压缩率的同时极大地扼制了算力暴涨。算法的硬件友好性优化与演进趋势尽管 HEVC 的运动估计算法带来了极高的压缩比但其恐怖的计算复杂度给实际落地特别是实时超高清编码带来了巨大挑战。因此现代 HEVC 运动估计的设计重点已向硬件流水线兼容性倾斜。硬件友好型优化设计数据依赖性消除在时域运动矢量预测TMVP中限制参考缓存的访问范围防止硬件设计中 DDR 带宽因频繁读取前向帧的 MV 而崩溃。并行合并/预测Merge Estimation Region, MER允许并行计算相邻块的 Merge 列表打破了传统的逐块串行依赖使 GPU/FPGA 上的大规模并行处理成为可能。AMP 模式的快速跳过通过分析2Nx2N块的残差能量和运动向量均匀度提前预测是否需要启动复杂的非对称划分从而跳过 70% 以上不必要的运动搜索。总结与未来演进HEVC 运动估计算法通过四叉树灵活拓扑、高精度的 AMVP/Merge 预测机制、8-tap 高级分数像素内插以及严格的 RDO 决策相比 H.264 提升了近 50% 的压缩效率。随着 4K/8K 视频和超低延时直播场景的全面普及当下的 HEVC 运动估计正在深度融合机器学习与 AI 预测如利用神经网络提前预测 CU/PU 划分剪枝并为下一代 VVCH.266中更复杂的仿射运动估计Affine ME和光流修正BIO奠定了坚实的架构基础。

AI学习新范式：Discord社区驱动的技术实践指南

1. 这份AI Newsletter到底在讲什么？——一份给真实从业者的拆解笔记你点开这封标题叫《This AI newsletter is all you need #29》的邮件，第一反应可能是：又一封堆满链接的“信息噪音”。但如果你真花15分钟把它从头到尾读完，会发…

2026/6/25 12:33:47 阅读更多

栖影 AI 落地实践：中小电商团队零代码搭建自动化视觉生产流水线

摘要针对中小电商团队 AI 视觉生产门槛高、流程碎片化、输出标准不统一的普遍问题，本文提出一套零代码、低成本的自动化视觉生产流水线方案。方案基于多模态生成工具的参数复用、批量处理与跨模块联动能力，从模板标准化、批量生成、多平台适配、资产沉…

2026/6/25 12:33:27 阅读更多

094、NPU的信任执行环境（TEE）：保护模型与数据

094、NPU的信任执行环境（TEE）：保护模型与数据去年在调试一款车规级NPU芯片时，遇到一个诡异的问题：部署在NPU上的人脸识别模型，在实验室跑得好好的，装到客户样机上就开始间歇性输出错误结果。查了三天，最后发现是模型参数在DDR传输过程中被篡改——不是硬件故障，是系…

2026/6/25 12:32:46 阅读更多

先引入一个简单的例子，给定一个 4 个节点 4 条边的有向带权图：

1 2 1 1 3 1 2 4 1 3 4 0设节点 1 为起点，节点 4 为终点。每条边都有对应的转移概率，节点 1 转移至节点 2 与节点 3 的概率均为 0.5，节点 2 与节点 3 转移至终点 4 的概率均为 1。问题要求解从起点 1 到达终点 4 的期望距离。先给出正确的解法…

2026/6/25 14:06:22 阅读更多

多维聚合实战：从SQL GROUP BY到OLAP空间导航

1. 项目概述：当数据聚合从“加总”升级为“空间导航”你有没有遇到过这样的场景：销售报表里，区域经理盯着一张全国销售额汇总表发呆——数字是对的，但“为什么华东Q3突然涨了12%”这个问题，表格本身答不出来&#xff1…

2026/6/25 14:05:42 阅读更多

Okbiye 毕业论文 AI 写作实测：页面全功能拆解，一站式搞定学位论文创作

okbiye-免费查重复率aigc检测/开题报告/毕业论文/智能排版/文献综述/数据分析毕业论文 - Okbiye智能写作https://www.okbiye.com/ai/bylw 开篇：毕业生写论文的多重卡点，普通 AI 工具根本解决不了每到毕业季，从专科到硕博的学生都会被论文层…

2026/6/25 14:05:21 阅读更多

HTML打包EXE后图标不更新？刷新桌面缓存方法

使用HTML打包EXE工具制作Windows桌面程序时，很多用户都会设置一个自定义图标：例如公司Logo、产品图标、课程封面图标，或者KRPano全景项目的品牌图标。打包参数已经填好，图标文件也选择正确，生成的EXE文件属性里看起来也…

2026/6/25 14:04:20 阅读更多

储能电池液冷散热技术解析：从电芯均温到系统节能的工程逻辑

🎓作者简介：科技自媒体优质创作者 🌐个人主页：莱歌数字-CSDN博客 211、985硕士，从业16年从事结构设计、热设计、售前、产品设计、项目管理等工作，涉足消费电子、新能源、医疗设备、制药信息化、核工业等…

2026/6/25 14:04:00 阅读更多

Python之mathy-pydoc包语法、参数和实际应用案例

mathy-pydoc 完整使用手册一、包基础概述 1. 核心定位 mathy-pydoc 是基于 Python 标准库 pydoc 二次封装、专为数学计算类项目打造的自动化文档生成工具，适配含大量公式、数值函数、矩阵运算、符号计算的代码工程。原生 pydoc 对数学注释、LaTeX 公式、数值参数说…

2026/6/25 14:03:40 阅读更多

面试辅助工具横评：我试了5款AI面试工具，最后留下了OfferGo

上半年跳槽，面了十几家公司。说句实话，不是能力不行，是面试现场太容易崩了。明明准备了一周，面试官换个问法脑子就一片白。面完之后那个懊悔——其实我会的。后来开始试市面上的AI面试辅助工具。前前后后装了5款，踩…

2026/6/25 11:52:18 阅读更多

MC-037 | 自定义 Skill 开发：创建你的AI能力模块

MONKEYCODE 教程系列 MonkeyCode教程及推广系列 MC-037 自定义 Skill 开发：创建你的AI能力模块 >官网链接注册更放心哦https://monkeycode-ai.com/?ic019e0aed-c823-783c-b08a-4f030f891e4e 系列: 不爱土豆唯爱马铃薯 MonkeyCode 教程系列字数: 约 1400 字…

2026/6/25 11:52:18 阅读更多

PEER模型：多模型协作范式的工程化实践指南

1. 项目概述：这不是又一个大模型，而是一次协作范式的重构 “META’s PEER: A Collaborative Language Model”这个标题里藏着一个被多数人忽略的关键词—— Collaborative （协作）。它不是在说“模型更大了”“参数更多了”“训练…

2026/6/25 11:54:48 阅读更多

Google AI Studio 300美元额度的真相与实战指南

1. 这300美金不是“送钱”，而是Google埋下的第一道技术门槛你看到标题里那个醒目的“$300美金”时，第一反应可能是：又一个免费额度？领完就完事？我亲手试过——这300美金根本不是红包，而是一张入场券&…

2026/6/25 1:04:34 阅读更多

PDF对比终极指南：用diff-pdf轻松识别文档差异的完整教程

PDF对比终极指南：用diff-pdf轻松识别文档差异的完整教程【免费下载链接】diff-pdf A simple tool for visually comparing two PDF files 项目地址: https://gitcode.com/gh_mirrors/di/diff-pdf 还在为PDF文档的版本对比而烦恼吗？diff-pdf这款开…

2026/6/25 1:04:45 阅读更多

嵌入式GUI控件实战：ROTARY、SCROLLBAR、SLIDER原理与应用

1. 嵌入式GUI控件：从原理到实战的深度解析在嵌入式系统开发中，图形用户界面（GUI）的设计与实现往往是项目从“能用”到“好用”的关键一跃。不同于资源充沛的PC或移动平台，嵌入式设备的GUI需要在有限的CPU性能、内存空间…

2026/6/25 1:04:41 阅读更多

Zotero Duplicates Merger：5步彻底清理文献库重复条目

Zotero Duplicates Merger：5步彻底清理文献库重复条目【免费下载链接】ZoteroDuplicatesMerger A zotero plugin to automatically merge duplicate items 项目地址: https://gitcode.com/gh_mirrors/zo/ZoteroDuplicatesMerger 还在为文献库中堆积如山的重…

2026/6/25 12:27:19 阅读更多

利用随机有限集理论对蜂群的ILQR和MPC控制研究附Matlab代码

✅作者简介：热爱科研的Matlab仿真开发者，擅长数据处理、建模仿真、程序设计、完整代码获取、论文复现及科研仿真。🍎 往期回顾关注个人主页：Matlab科研工作室🍊个人信条：格物致知,完整Matlab代码及仿真咨询…

2026/6/25 12:27:19 阅读更多

为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因

更多请点击： https://intelliparadigm.com 第一章：为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因 Gemini邮件的客户转化效率（CTE）显著偏低，根本原因常被误判为…

2026/6/25 12:27:19 阅读更多

相关文章

AI学习新范式：Discord社区驱动的技术实践指南

栖影 AI 落地实践：中小电商团队零代码搭建自动化视觉生产流水线

094、NPU的信任执行环境（TEE）：保护模型与数据

先引入一个简单的例子，给定一个 4 个节点 4 条边的有向带权图：

多维聚合实战：从SQL GROUP BY到OLAP空间导航

Okbiye 毕业论文 AI 写作实测：页面全功能拆解，一站式搞定学位论文创作

HTML打包EXE后图标不更新？刷新桌面缓存方法

储能电池液冷散热技术解析：从电芯均温到系统节能的工程逻辑

Python之mathy-pydoc包语法、参数和实际应用案例

面试辅助工具横评：我试了5款AI面试工具，最后留下了OfferGo

MC-037 | 自定义 Skill 开发：创建你的AI能力模块

PEER模型：多模型协作范式的工程化实践指南

Google AI Studio 300美元额度的真相与实战指南

PDF对比终极指南：用diff-pdf轻松识别文档差异的完整教程

嵌入式GUI控件实战：ROTARY、SCROLLBAR、SLIDER原理与应用

Zotero Duplicates Merger：5步彻底清理文献库重复条目

利用随机有限集理论对蜂群的ILQR和MPC控制研究附Matlab代码

为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因