摘要H.266/VVCVersatile Video Coding作为最新一代视频编码标准于2020年7月正式发布相比HEVC实现了约50%的码率节省。然而编码复杂度增加7-31倍、解码复杂度增加约2倍的代价使得VVC的实际部署面临巨大挑战。本文综述了近年来针对VVC优化的主要研究成果从编码复杂度优化、环路滤波增强、分区决策加速、解码器优化以及工具链实现等五个方面总结了学术界和工业界提出的解决方案及其核心观点。相关论文下载H266优化论文一、编码复杂度优化研究1.1 复杂度控制的精确化方法Huang等人2022在IEEE Transactions on Broadcasting发表的研究首次提出了VVC编码复杂度的精确控制方法。该研究的核心观点是传统的复杂度降低方法在不同视频内容和QP下性能不稳定难以精确指定每个序列的目标编码时间限制了编码器的实际应用。研究团队借鉴码率控制的思想将编码时间预算视为一种资源设计了自顶向下的分配和自底向上的反馈机制。该方法的核心贡献包括线性模型L Model发现帧编码时间与LCU时间之间存在线性关系通过该模型实现复杂度分配的完全级联时间-代价模型T-C Model利用Planar Cost与编码时间的关系实现I帧LCU编码时间的准确预测多粒度控制方案在GOP/帧/LCU三个级别实现复杂度分配和反馈实验结果表明在目标编码时间比例为80%、60%和40%时平均编码时间误差分别控制在0.24%、0.03%和0.06%以内BD-rate损失仅为0.28%、0.83%和2.24%。这是首个支持直接指定目标编码时间或FPS并在单次编码中准确实现的VVC复杂度控制方法。1.2 基于深度学习的分区决策优化Zhao等人2022提出了基于深度特征融合和概率估计的两阶段框架用于优化VVC帧内预测的复杂度。该研究的核心观点是VVC的嵌套分层CTU结构极其复杂需要从时空相邻编码特征中提取有用信息来预测最优编码深度和分区模式。研究的主要贡献包括深度特征融合模型D-DFF使用轻量级CNN融合不同尺度的时空参考特征预测最优编码深度准确率达到91.29%概率估计模型P-PBE初始化候选分区模式跳过不必要的分区搜索在HD和UHD视频序列上实现显著的时间节省同时保持可接受的RD性能损失该研究证明了深度学习在VVC复杂度优化中的有效性特别是对于高分辨率视频序列。1.3 基于视觉感知的快速分区决策Chen等人2022在IEEE Access发表的研究提出了基于视觉感知和机器学习的快速分区决策方法。该研究的核心观点是现有VVC快速编码算法很少考虑感知冗余而人类视觉系统的特性可以用于加速编码过程。研究的关键创新包括恰可察觉差异JND模型提取影响视觉感知的可区分像素投影分布特征发现可区分像素的水平和垂直投影分布与MTT分区模式相关随机森林分类器使用投影分布作为输入特征快速选择分区模式实验结果表明该方法在保持良好码率和视频质量的前提下有效加速了帧内编码过程性能优于之前的工作。二、环路滤波增强研究2.1 单一模型处理多QP和帧类型的CNN滤波器Huang等人2022提出了一种创新的变分CNNVCNN环路滤波器该研究的核心观点是现有基于CNN的环路滤波器倾向于为不同QP和帧类型训练和部署多个网络极大地增加了训练资源消耗和编解码器的内存负担。研究的主要贡献包括注意力模块根据QP或帧类型自适应重新校准通道特征显式地为不同通道分配不同权重残差特征聚合模块RFA最小化学习过程中的信息损失提高特征提取效率焦点MSE损失函数解决不同QP和帧类型的训练数据不平衡问题提高模型鲁棒性实验结果表明VCNN在All Intra、Low-Delay P、Low-Delay B和Random Access配置下平均码率节省分别为3.63%、4.36%、4.23%和3.56%甚至优于QP分离模型。这是首个能够通过单一模型有效处理不同QP和帧类型压缩视频的环路滤波方法。三、编码器实现与优化研究3.1 从HEVC到VVC的编码器转换实践Viitanen等人2022在IEEE Transactions on Consumer Electronics发表的研究首次详细描述了将HEVC编码器升级为VVC编码器的实现细节。该研究的核心观点是VVC采用与HEVC类似的混合视频编码方案因此可以重用许多HEVC编码工具和技术。研究团队基于开源Kvazaar HEVC编码器开发了uvg266 VVC帧内编码器主要贡献包括工具选择标准基于率失真复杂度RDC性能和实现工作量选择编码工具代码重用分析详细分析了Kvazaar中AVX2优化部分在VVC中的可重用性实现策略优先实现RD性能高且实现工作量合理的工具如MTS、JCCR、ALF、LMCS研究证明了从HEVC编码器转换为VVC编码器的可行性快速的开发时间和有前景的编码性能使该方法成为从零开始开发编码器的可行替代方案。3.2 仿射运动估计的快速算法Park和Kang2019在IEEE Access发表的研究提出了VVC仿射运动估计AME的快速编码方法。该研究的核心观点是AME在VTM编码器中占据约54.75%的运动估计时间是编码复杂度的主要来源。研究的主要贡献包括特征提取引入反映MTT和AME统计特征的有用特征冗余跳过机制利用父CU的运动信息跳过冗余的AME过程参考帧减少减少AME使用的参考帧数量实验结果表明与VTM 3.0相比该方法将AME时间平均减少到63%而在Random Access配置下的编码损失在0.1%以内。这是VVC文献中首次尝试减少AME复杂度的工作。四、解码器优化研究4.1 实时软件解码器实现Wieckowski等人2020在VVC标准最终确定前夕提出了优化的软件解码器实现。该研究的核心观点是VVC解码复杂度约为HEVC的2倍需要在通用CPU上实现实时解码能力。研究的关键优化技术包括SIMD指令优化使用SSE42和AVX2指令集优化样本操作实现69%SSE42和73%AVX2的时间节省多线程并行化采用帧级并行、波前并行处理WPP和任务级并行特定块大小优化针对4×4仿射预测、16×16DMVR等关键块大小设计专用滤波器核实验结果表明在现代移动消费级硬件上该解码器能够实现10bit HD视频60fps和10bit UHD视频30fps的实时解码证明了VVC实时解码在标准最终确定前已经可行。五、工具链与系统集成研究5.1 完整的端到端开源工具链Wieckowski等人2021在ACM Multimedia会议上展示了完整的VVC端到端开源工具链。该研究的核心观点是VVC标准发布一年后设备级支持仍在开发中但开源软件包已经可以构建完整的VVC工具链。研究介绍的主要组件包括VVenC编码器5个预设faster、fast、medium、slow、slowerslower预设达到VTM压缩性能运行时间不到一半多线程支持压缩效率损失极小主观优化XPSNR和率控制VVdeC解码器符合Main 10 profileHD视频60fps、UHD视频60fps实时解码能力C库接口易于集成系统集成GPAC支持VVC的MP4封装和DASH流媒体FFmpeg集成VVdeC支持播放和转码研究提供了两个应用场景的逐步教程VVC文件编码加播放以及DASH自适应流媒体证明了VVC在标准发布一年后即可用于实际应用。六、新兴研究方向6.1 人机视觉协同编码框架Sheng等人2023提出了学习型多功能视频编码LVVC框架该研究的核心观点是几乎所有数字视频在传输前都被编码为紧凑表示这些表示需要解码回像素才能显示给人类或被机器视觉算法处理而对于机器视觉直接处理编码表示而不解码到像素域更为高效。研究的主要创新包括基于特征的压缩循环帧被编码解码为中间特征中间特征被引用用于编码解码后续帧基于特征的时序上下文挖掘从之前的中间特征学习多尺度时序上下文跨域运动编解码器直接从输入帧和之前的中间特征压缩运动向量LVVC框架在视频重建、视频处理和视频分析任务上进行了评估证明了其压缩效率。该框架允许中间特征用于重建视频或输入到不同的任务网络实现了人类和机器视觉的多功能性。七、总结与展望7.1 主要研究进展通过对上述研究的综述可以看出VVC优化研究在以下方面取得了显著进展复杂度优化从简单的复杂度降低发展到精确的复杂度控制支持直接指定目标编码时间或FPS误差控制在0.03%-0.24%以内。深度学习应用CNN在环路滤波、分区决策等领域的应用日益成熟单一模型处理多QP和帧类型的能力显著提升。实现优化编码器和解码器的优化技术不断进步实时处理能力从理论变为现实开源工具链日趋完善。新兴方向人机视觉协同编码、特征基压缩等新范式开始探索为视频编码的未来发展开辟了新路径。7.2 存在的挑战尽管取得了显著进展VVC优化仍面临以下挑战复杂度-效率权衡如何在保持高压缩效率的同时进一步降低复杂度特别是对于移动和嵌入式设备深度学习模型的泛化能力训练数据覆盖范围、跨数据集性能、实际部署的鲁棒性硬件实现QTMT分区、ALF等新工具的硬件友好设计功耗和芯片面积的优化许可证问题避免HEVC的许可证困境建立健康的VVC生态系统7.3 未来研究方向基于当前研究进展未来VVC优化研究可能朝以下方向发展自适应复杂度控制根据设备能力和应用需求动态调整编码复杂度端到端学习探索完全基于深度学习的视频编码框架多任务协同视频编码与机器视觉任务的深度融合硬件-软件协同设计针对特定应用场景的定制化优化参考文献[1] Hamidouche W, et al. Versatile Video Coding Standard: A Review from Coding Tools to Consumers Deployment. IEEE Transactions on Circuits and Systems for Video Technology, 2021.[2] Viitanen M, et al. From HEVC to VVC: The First Development Steps of a Practical Intra Video Encoder. IEEE Transactions on Consumer Electronics, 2022.[3] Huang Z, et al. One-for-all: An Efficient Variable Convolution Neural Network for In-loop Filter of VVC. IEEE Transactions on Image Processing, 2022.[4] Zhao T, et al. Efficient VVC Intra Prediction Based on Deep Feature Fusion and Probability Estimation. IEEE Transactions on Circuits and Systems for Video Technology, 2022.[5] Sheng X, et al. LVVC: A Learned Versatile Video Coding Framework for Efficient Human-Machine Vision. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2023.[6] Huang Y, et al. Precise Encoding Complexity Control for Versatile Video Coding. IEEE Transactions on Broadcasting, 2022.[7] Chen M J, et al. Efficient Partition Decision Based on Visual Perception and Machine Learning for H.266/Versatile Video Coding. IEEE Access, 2022.[8] Wieckowski A, et al. A Complete End-To-End Open Source Toolchain for the Versatile Video Coding (VVC) Standard. ACM Multimedia, 2021.[9] Wieckowski A, et al. Towards a Live Software Decoder Implementation for the Upcoming Versatile Video Coding (VVC) Codec. IEEE International Conference on Image Processing, 2020.[10] Park S H, Kang J W. Fast Affine Motion Estimation for Versatile Video Coding (VVC) Encoding. IEEE Access, 2019.版权声明本文为学术论文综述引用内容均标注出处仅供学术研究和学习交流使用。
H.266/VVC 视频编解码标准最新优化研究综述
发布时间:2026/5/26 5:06:00
摘要H.266/VVCVersatile Video Coding作为最新一代视频编码标准于2020年7月正式发布相比HEVC实现了约50%的码率节省。然而编码复杂度增加7-31倍、解码复杂度增加约2倍的代价使得VVC的实际部署面临巨大挑战。本文综述了近年来针对VVC优化的主要研究成果从编码复杂度优化、环路滤波增强、分区决策加速、解码器优化以及工具链实现等五个方面总结了学术界和工业界提出的解决方案及其核心观点。相关论文下载H266优化论文一、编码复杂度优化研究1.1 复杂度控制的精确化方法Huang等人2022在IEEE Transactions on Broadcasting发表的研究首次提出了VVC编码复杂度的精确控制方法。该研究的核心观点是传统的复杂度降低方法在不同视频内容和QP下性能不稳定难以精确指定每个序列的目标编码时间限制了编码器的实际应用。研究团队借鉴码率控制的思想将编码时间预算视为一种资源设计了自顶向下的分配和自底向上的反馈机制。该方法的核心贡献包括线性模型L Model发现帧编码时间与LCU时间之间存在线性关系通过该模型实现复杂度分配的完全级联时间-代价模型T-C Model利用Planar Cost与编码时间的关系实现I帧LCU编码时间的准确预测多粒度控制方案在GOP/帧/LCU三个级别实现复杂度分配和反馈实验结果表明在目标编码时间比例为80%、60%和40%时平均编码时间误差分别控制在0.24%、0.03%和0.06%以内BD-rate损失仅为0.28%、0.83%和2.24%。这是首个支持直接指定目标编码时间或FPS并在单次编码中准确实现的VVC复杂度控制方法。1.2 基于深度学习的分区决策优化Zhao等人2022提出了基于深度特征融合和概率估计的两阶段框架用于优化VVC帧内预测的复杂度。该研究的核心观点是VVC的嵌套分层CTU结构极其复杂需要从时空相邻编码特征中提取有用信息来预测最优编码深度和分区模式。研究的主要贡献包括深度特征融合模型D-DFF使用轻量级CNN融合不同尺度的时空参考特征预测最优编码深度准确率达到91.29%概率估计模型P-PBE初始化候选分区模式跳过不必要的分区搜索在HD和UHD视频序列上实现显著的时间节省同时保持可接受的RD性能损失该研究证明了深度学习在VVC复杂度优化中的有效性特别是对于高分辨率视频序列。1.3 基于视觉感知的快速分区决策Chen等人2022在IEEE Access发表的研究提出了基于视觉感知和机器学习的快速分区决策方法。该研究的核心观点是现有VVC快速编码算法很少考虑感知冗余而人类视觉系统的特性可以用于加速编码过程。研究的关键创新包括恰可察觉差异JND模型提取影响视觉感知的可区分像素投影分布特征发现可区分像素的水平和垂直投影分布与MTT分区模式相关随机森林分类器使用投影分布作为输入特征快速选择分区模式实验结果表明该方法在保持良好码率和视频质量的前提下有效加速了帧内编码过程性能优于之前的工作。二、环路滤波增强研究2.1 单一模型处理多QP和帧类型的CNN滤波器Huang等人2022提出了一种创新的变分CNNVCNN环路滤波器该研究的核心观点是现有基于CNN的环路滤波器倾向于为不同QP和帧类型训练和部署多个网络极大地增加了训练资源消耗和编解码器的内存负担。研究的主要贡献包括注意力模块根据QP或帧类型自适应重新校准通道特征显式地为不同通道分配不同权重残差特征聚合模块RFA最小化学习过程中的信息损失提高特征提取效率焦点MSE损失函数解决不同QP和帧类型的训练数据不平衡问题提高模型鲁棒性实验结果表明VCNN在All Intra、Low-Delay P、Low-Delay B和Random Access配置下平均码率节省分别为3.63%、4.36%、4.23%和3.56%甚至优于QP分离模型。这是首个能够通过单一模型有效处理不同QP和帧类型压缩视频的环路滤波方法。三、编码器实现与优化研究3.1 从HEVC到VVC的编码器转换实践Viitanen等人2022在IEEE Transactions on Consumer Electronics发表的研究首次详细描述了将HEVC编码器升级为VVC编码器的实现细节。该研究的核心观点是VVC采用与HEVC类似的混合视频编码方案因此可以重用许多HEVC编码工具和技术。研究团队基于开源Kvazaar HEVC编码器开发了uvg266 VVC帧内编码器主要贡献包括工具选择标准基于率失真复杂度RDC性能和实现工作量选择编码工具代码重用分析详细分析了Kvazaar中AVX2优化部分在VVC中的可重用性实现策略优先实现RD性能高且实现工作量合理的工具如MTS、JCCR、ALF、LMCS研究证明了从HEVC编码器转换为VVC编码器的可行性快速的开发时间和有前景的编码性能使该方法成为从零开始开发编码器的可行替代方案。3.2 仿射运动估计的快速算法Park和Kang2019在IEEE Access发表的研究提出了VVC仿射运动估计AME的快速编码方法。该研究的核心观点是AME在VTM编码器中占据约54.75%的运动估计时间是编码复杂度的主要来源。研究的主要贡献包括特征提取引入反映MTT和AME统计特征的有用特征冗余跳过机制利用父CU的运动信息跳过冗余的AME过程参考帧减少减少AME使用的参考帧数量实验结果表明与VTM 3.0相比该方法将AME时间平均减少到63%而在Random Access配置下的编码损失在0.1%以内。这是VVC文献中首次尝试减少AME复杂度的工作。四、解码器优化研究4.1 实时软件解码器实现Wieckowski等人2020在VVC标准最终确定前夕提出了优化的软件解码器实现。该研究的核心观点是VVC解码复杂度约为HEVC的2倍需要在通用CPU上实现实时解码能力。研究的关键优化技术包括SIMD指令优化使用SSE42和AVX2指令集优化样本操作实现69%SSE42和73%AVX2的时间节省多线程并行化采用帧级并行、波前并行处理WPP和任务级并行特定块大小优化针对4×4仿射预测、16×16DMVR等关键块大小设计专用滤波器核实验结果表明在现代移动消费级硬件上该解码器能够实现10bit HD视频60fps和10bit UHD视频30fps的实时解码证明了VVC实时解码在标准最终确定前已经可行。五、工具链与系统集成研究5.1 完整的端到端开源工具链Wieckowski等人2021在ACM Multimedia会议上展示了完整的VVC端到端开源工具链。该研究的核心观点是VVC标准发布一年后设备级支持仍在开发中但开源软件包已经可以构建完整的VVC工具链。研究介绍的主要组件包括VVenC编码器5个预设faster、fast、medium、slow、slowerslower预设达到VTM压缩性能运行时间不到一半多线程支持压缩效率损失极小主观优化XPSNR和率控制VVdeC解码器符合Main 10 profileHD视频60fps、UHD视频60fps实时解码能力C库接口易于集成系统集成GPAC支持VVC的MP4封装和DASH流媒体FFmpeg集成VVdeC支持播放和转码研究提供了两个应用场景的逐步教程VVC文件编码加播放以及DASH自适应流媒体证明了VVC在标准发布一年后即可用于实际应用。六、新兴研究方向6.1 人机视觉协同编码框架Sheng等人2023提出了学习型多功能视频编码LVVC框架该研究的核心观点是几乎所有数字视频在传输前都被编码为紧凑表示这些表示需要解码回像素才能显示给人类或被机器视觉算法处理而对于机器视觉直接处理编码表示而不解码到像素域更为高效。研究的主要创新包括基于特征的压缩循环帧被编码解码为中间特征中间特征被引用用于编码解码后续帧基于特征的时序上下文挖掘从之前的中间特征学习多尺度时序上下文跨域运动编解码器直接从输入帧和之前的中间特征压缩运动向量LVVC框架在视频重建、视频处理和视频分析任务上进行了评估证明了其压缩效率。该框架允许中间特征用于重建视频或输入到不同的任务网络实现了人类和机器视觉的多功能性。七、总结与展望7.1 主要研究进展通过对上述研究的综述可以看出VVC优化研究在以下方面取得了显著进展复杂度优化从简单的复杂度降低发展到精确的复杂度控制支持直接指定目标编码时间或FPS误差控制在0.03%-0.24%以内。深度学习应用CNN在环路滤波、分区决策等领域的应用日益成熟单一模型处理多QP和帧类型的能力显著提升。实现优化编码器和解码器的优化技术不断进步实时处理能力从理论变为现实开源工具链日趋完善。新兴方向人机视觉协同编码、特征基压缩等新范式开始探索为视频编码的未来发展开辟了新路径。7.2 存在的挑战尽管取得了显著进展VVC优化仍面临以下挑战复杂度-效率权衡如何在保持高压缩效率的同时进一步降低复杂度特别是对于移动和嵌入式设备深度学习模型的泛化能力训练数据覆盖范围、跨数据集性能、实际部署的鲁棒性硬件实现QTMT分区、ALF等新工具的硬件友好设计功耗和芯片面积的优化许可证问题避免HEVC的许可证困境建立健康的VVC生态系统7.3 未来研究方向基于当前研究进展未来VVC优化研究可能朝以下方向发展自适应复杂度控制根据设备能力和应用需求动态调整编码复杂度端到端学习探索完全基于深度学习的视频编码框架多任务协同视频编码与机器视觉任务的深度融合硬件-软件协同设计针对特定应用场景的定制化优化参考文献[1] Hamidouche W, et al. Versatile Video Coding Standard: A Review from Coding Tools to Consumers Deployment. IEEE Transactions on Circuits and Systems for Video Technology, 2021.[2] Viitanen M, et al. From HEVC to VVC: The First Development Steps of a Practical Intra Video Encoder. IEEE Transactions on Consumer Electronics, 2022.[3] Huang Z, et al. One-for-all: An Efficient Variable Convolution Neural Network for In-loop Filter of VVC. IEEE Transactions on Image Processing, 2022.[4] Zhao T, et al. Efficient VVC Intra Prediction Based on Deep Feature Fusion and Probability Estimation. IEEE Transactions on Circuits and Systems for Video Technology, 2022.[5] Sheng X, et al. LVVC: A Learned Versatile Video Coding Framework for Efficient Human-Machine Vision. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2023.[6] Huang Y, et al. Precise Encoding Complexity Control for Versatile Video Coding. IEEE Transactions on Broadcasting, 2022.[7] Chen M J, et al. Efficient Partition Decision Based on Visual Perception and Machine Learning for H.266/Versatile Video Coding. IEEE Access, 2022.[8] Wieckowski A, et al. A Complete End-To-End Open Source Toolchain for the Versatile Video Coding (VVC) Standard. ACM Multimedia, 2021.[9] Wieckowski A, et al. Towards a Live Software Decoder Implementation for the Upcoming Versatile Video Coding (VVC) Codec. IEEE International Conference on Image Processing, 2020.[10] Park S H, Kang J W. Fast Affine Motion Estimation for Versatile Video Coding (VVC) Encoding. IEEE Access, 2019.版权声明本文为学术论文综述引用内容均标注出处仅供学术研究和学习交流使用。