关键词:
高性能计算
功耗预测
空间位置
能耗优化
调度算法
摘要:
随着计算需求的急剧增长和计算集群规模的不断扩大,集群负载不均衡和能耗失衡问题日益凸显。在高密度计算环境中,能耗失衡带来的不稳定的热量环境,不仅降低了设备的可靠性和寿命,还影响了集群的整体稳定性和性能。高性能计算(High Performance Computing,HPC)集群的能耗管理和优化成为HPC领域的一个重要研究方向。
作业负载分配不均衡导致集群内部各机柜之间能耗存在显著差异,冷热分布不均。空间位置上的能耗失衡增加了能源浪费和冷却成本,物理空间位置上的均衡分布在能耗管理策略中具有重要意义,为此本文将空间位置信息与功耗信息结合,提出了一种基于空间位置的能耗感知调度方法。主要研究内容和创新贡献如下:
(1)针对节点功耗数据在时空维度复杂的特性,设计了一种面向HPC集群节点的功耗预测算法。该算法利用TCN和TFT作为融合模型的组件,对相同的输入数据进行独立处理。通过加权平均的方式结合两个组件模型的输出。这种融合方式旨在集合TCN和TFT模型各自独有的结构与特征,以更全面地理解和预测时间序列数据。利用MSE、MAE和评价指标进行综合评估,结果显示,TCN-TFT融合模型在预测精度和稳定性方面均好于其它比较模型,展示了其优异的预测性能和广泛的应用前景。将该算法与HPC集群的调度系统集成,为基于空间位置的能耗感知调度提供精准的决策支持。
(2)提出了基于空间位置的能耗感知调度算法(Energy-aware scheduling based on spatial location,EASSL)。该算法通过一个多元时序融合模型对节点功耗进行预测,根据节点的物理部署位置并配合节点功耗预测算法,实现对作业计算节点的智能调度,同时算法引入二次调度策略优化实现对节点能耗负载的均衡分布。EASSL算法针对不同作业量和集群规模测试场景均展现出更好的性能,其在作业量测试场景中的能耗均衡度保持在0.87至0.91之间,较其变体均有不同程度的提高;在集群规模测试场景中的负载均衡度较其变体均有降低,反映了其在优化作业负载方面的高效性。结果表明,算法有效优化了计算集群能耗分布的同时降低了热点区域的形成。