Efficient Multi-Encoding Algorithms for HTTP Adaptive Bitrate Streaming

来源：youtube: Picture Coding Symposium Channel
主讲人：Vignesh V Menon
内容整理：尹文沛
主题是一种应用于http自适应流的高效的多编码算法，作者介绍了这项工作的前景和HTTP自适应流的背景，解释了现有文献中最先进的方法和所提出的算法，并展示了该算法与其他算法的比较结果，最后介绍了结论和未来的研究方向。

目录

Introduction

互联网中越来越多的视频流使得 HTTP 自适应流成为必要。HTTP自适应流曾经迎合各种设备的网络速度和用户偏好。每个视频序列被分成多个片段，同时以多种比特率分辨率和编解码器编码成片。它们根据设备功能网络速度和用户偏好交付给客户端。

图2显示了针对设置分辨率和比特率的 4 个 JVET 测试序列的编码时间复杂度被认为已经满足需求。编码时间相对于 2160 P 的最高分辨率最高比特率或呈现进行归一化。在 1080 P 下独立观察编码时，25 MPS 花费的编码时间是 540 P 编码时间的两倍，类似的 2160 P 编码时间与 1080 P 相比，这是分辨率的两倍，编码时间也加倍。我们还知道，许多编码器决策（如回避决策）在这项工作中的表示中是多余的，他试图提出算法来减少整体编码时间。在多速率编码中，我们将这种冗余用于多编码中每个分辨率的演示。我们在每个分辨率的每个表示中利用这种冗余。

Related Work

文献中有一些作品，我们认为它们是最先进的算法。在这里，我们将 single bond for SEO destination 视为第一个最先进的算法，并将之前的工作（ double bond first Europe estimation ）作为该算法的第二个状态进行概念化。根据观察，随着目标比特率的增加，CU 大小往往更小，换句话说，它使用的通常倾向于在更高比特率的演示文稿中具有更高的深度值，因此在单键( singel bond )中进行估计。

来自最高双速率表示的 Cu 深度信息用作依赖表示的 CU 深度估计的上限。

此外，在双边界中，来自最低比特率表示的 CU 深度信息用作相关表示的 CU 深度估计的下限

作为第三个和第四个最先进的算法。我们考虑集成编码器分析，分享更多的场景实现。编码器积分器过度分析模式一为睡眠最高比特率编码。其他表示强制以最高比特率做出最佳决策，例如切片类型。场景可以与 CU 四叉树结构预测模式和参考索引一起检测，并跳过音频处理器以进行其他可能的决定。在综合访问分析模式下，对其他表示法强制优化。此外，如果您使用静态细化技术，它们也会被使用。

文献中有一个工作百分比，我们将其视为多重编码的思想状态算法。马丁编码在这里指的是多速率和多分辨率相结合的方法。考虑编码问题，同一视频在不同分辨率下不同目标比特率。在这里，最后一个人来说明该算法是集成访问。

假设他扩展了多个分辨率，从前一个分辨率的最高比特率表示中查看UN peu 信息。他缩放并使用了当前分辨率最高的比特率表示。它还使用现有文件中定义的静态细化方案。这种方法可以很好地节省编码时间，但会严重影响压缩效率。

Efficient Multi-Rate Encoding

现在让我们讨论所提出的多速率算法。

Prediction Mode Heuristics

在本文中，我们提出一定的预测。基于我们在编码中观察到的表示中的更多启发式方法。

如果跳过模式被选为最高 mutator 呈现中的最佳模式，很可能为其他表示选择了跳过，在这种情况下，我们限制音频仅用于其他表示中的合并或跳过模式。
如果 2N X 2N 模式在最高比特率表示中被选择，则在 AMP 模式中跳过音频。
如果 inter-prediction 模式在最高比特率表示中被选择，则在 intra-prediction 模式下跳过音频。
在 double-bound for CU estimation 中，如果 intra-prediction 模式在最高和最低码率表示中被选择，音频仅仅在中间表示的 intra-prediction 模式下被评估。

Motion Estimation Heuristics

同样，我们也首先提出了一些运动估计的启发式方法。如果为依赖表示选择的 CU 深度和 PU 与参考表示相同，则提出以下启发式方法。

强制使用与最高比特率表示相同的参考帧
MVP（运动向量预测器）被设置为最高比特率表示的运动向量MV(Motion Vector)
在 double-bound for CU estimation中，如果最高比特率表示的MV和最低比特率表示的MV是相邻的，那么运动搜索范围将会被减少到一个更小的窗口。这个搜索范围被定义为运动向量之间x坐标和y坐标的最大差值。

Multi Encoding Algorithms

首先，我们提出了一种多编码藻类——Long，这是更保守的媒体速率，更强调压缩效率。在此处提出的多速率模式解决方案中，2 用于交流管道信息。在最高比特率中，先前分辨率的表示被缩放并用作当前分辨率的最高比特率表示的 CU 估计的下限。

图6 Proposed Multi-Encoding Algorithm-1中的编码器分析共享方法

其次，我们提出了一种多重编码。与之前的算法相比，Falco 节奏节省了更多的编码时间，这里类似于之前提出的多速率算法等等。

图7 Proposed Multi-Encoding Algorithm-2中的编码器分析共享方法

在分辨率中使用谁来查看您先前解决方案的最低比特率表示的信息被缩放并用作最高的 CU 估计的下限，而 Dorest 违背了当前分辨率的表示。

Exprimental Evaluation

我应该解释这项工作中使用的实验验证方法。使用英特尔 8 核的年轻文字处理器进行编码。我们用于 JV 序列和 3 个专业制作的超高清内容。我们测试所考虑的分辨率分别为 540 P、1080 P 和 2160 P。较低分辨率的源是使用 FFMPEG 从原始源视频生成的。

对于540P，我们考虑5Mpps、22MPPS的码率，1080P重新考虑3MPps、27MPPS的码率。对于2160P，我们考虑6MPS到25Mps的码率，码率的选择符合实际规范。

评估指标：

: 全局编码节省的时间
: 比特率相对于参考编码的平均差异以保持相同的 PSNR
: 比特率相对于参考编码的平均差异以保持相同的 VMAF
: BDR值和值之间的权衡

权衡值越小说明算法性能越好。

多速率算法1比较 Single-bound for CU estimation 节省了 12% 的编码时间，但是BDR值只出现了微不足道的增长了。

多速率算法2相较于 Double-bound for CU estimation 节省了 11% 的编码时间，付出了BDR只增长一点点的代价。

获得了更好的指标。

从图9中可以看到，最先进算法指标最高，但是与此同时BDR值显著提高。

多速率算法1有着最低的BDR增长和最低的值。

多速率算法2相较于多速率算法1提升了11%的节省编码时间，付出了微不足道的BDR值提升。

Further work

我们进一步将我们的多速率算法扩展到多编码算法，它也考虑了多种分辨率。所提出的多编码算法在编码时间节省和压缩效率之间表现出更好的权衡。在目前的工作中，我们只考虑串行编码场景，通过瘫痪编码过程可以获得进一步的编码加速，本文中，我们只考虑了处于危险中的分辨率。未来的工作是 540 P 1080 P 和 2160 P 的 2 倍数。我们的目标是考虑 2 倍数的非整数幂。此外，我们旨在研究多编码算法最新的 Codex 示例 VVC。