Autopilot: workload autoscaling at Google论文描述的requests预测算法

论文：Autopilot: workload autoscaling at Google

本篇简单描述此论文中描述的资源request预测算法，不需要理解论文中那复杂的数学公式。

负载分布直方图

负载分布直方图

我们以cpu资源为例。直方图的横坐标是毫核，按5%的等比例，划分为400个桶，纵坐标是数量。然后取一段时间的cpu使用量指标，比如原算法中举例取5分钟，获取这5分钟所有采集的cpu使用指标，如果指标是每秒上报一次，那么5分钟就有300个指标，然后将这300个指标根据指标的值放入相对应的桶中，每个桶每放入一个指标那么数量+1。直方图是后续计算的基础。

假如我们需要拿12小时的指标数据来预测，一个直方图使用5分钟的数据，那么12小时就对应生成144张直方图。

论文中还引入了衰退系数，衰退系数其实是给直方图加权重，离当前时间越近的指标越有参考价值，所以权重越高，那么对应的直方图的衰退系数越大。

论文中取5分钟指标，按5%等比例(1.05的n次方)划分桶，以及分成400个桶，取多少个小时的数据分成多少个直方图，这些都不是固定的，都是可以调的。

为什么是5%以及400个桶？为什么是5%不清楚，但400个桶是为了覆盖边界值。因为1.05的400次方是299033351.24884427，对于cpu，299033351.24884427约为299033核，对于内存，299033351.24884427约为292024GB。

这个数字对我们来说太大了，假如我们限定单个Pod最大可用的cpu为8核、内存为16G，那么我们可以调整桶的数量为200个。1.05的200次方是17292.58081516013，对于cpu，17292.58081516013约为17核，对于内存，17292.58081516013约为16GB。刚好可以覆盖边界。

算法计算解释

我们最终需要算出S(max)、S(avg)、S(xxline)。S(px)如S(p98)、S(p95)、S(p90)、S(p60)。

S(max)：cpu或内存的最大使用值。假如我们取12小时的指标数据，S(max)就是这12小时所有采集的点的最大那个点。
S(avg)：直方图中每个桶的数量 * 桶的值（1.05的n次方，n为第几个桶），然后相加，再除以总数量（所有桶中的数量相加），再乘以直方图的衰退系数。最后所有直方图按前一步算出的结果求和，然后除以所有直方图的衰退系数的和。
S(px)：将所有直方图合并成一个直方图：每张图对应的桶的数量加权（加权=乘以衰退系数）* 桶的值（1.05的n次方，n为第几个桶）相加作为这个直方图的数量，直方图的横坐标还是原来的横坐标。然后再计算x%分位数对应的桶，取桶的值。如下图所示：

对于CPU，如果是一些批处理任务，我们就使用S(avg)作为cpu的request值；如果是在线业务，则根据对于延迟的容忍程度，选择S(95line)或者S(90line)值。

对于内存，一般的任务可以根据对于OOM的忍受程度，选择S(98line)或者S(max)，如果是批处理的任务，可以选择S(60line)和1/2*S(max)之间的最大值。

在选定对应的值后，可以再增加10%-15%的安全边界（推荐值越大，应该选择更小的安全边界）。

算法参数微调

一个服务有多个Pod，只算每个Pod的S(max)、S(px)、S(avg)，然后取这些Pod中的最大值。
衰退系数：权重，原算法是每12小时衰退50%，可以根据效果后期微调。例如每小时衰退5%。
分辨率：官方每个直方图的分辨率是5分钟。cpu每秒一个点，所以一个直方图有300个点，而内存每5分钟一个点，所以一个直方图只有一个点。我们是cpu和内存是每分钟一次收集，所有直方图的分辨率调整为60分钟，cpu和内存都是60个点。
直方图数量：取决于分辨率和需要的历史数据天数，例如48小时，后期微调。
直方图的桶数量：按默认400个桶，如果影响性能再调小一些。

Autopilot: workload autoscaling at Google论文描述的requests预测算法

文章推荐