关键词:
近数据处理
数据库
并行化
固态硬盘
影响因素
摘要:
信息时代下数据量激增,越来越多应用领域要处理大规模数据集。大量的数据从存储设备中传送到主机进行处理,不仅增加了主机中央处理器的负担,还产生了很大的传输时延。近数据处理提出将一部分基于主机的数据处理下移至存储设备中,以提高应用的整体执行效率。数据库作为近数据处理研究最优的载体之一,近年来得到广泛关注,目前已经实现用近数据处理模型来优化数据库系统。但是,已有的研究结果均为串行化近数据处理模型,主机和存储设备在数据处理过程中利用率不高,数据库系统性能还存在提升空间。本文通过设计并行任务调度器,实现了并行化近数据处理模型优化数据库系统,并对影响并行化模型优化数据库系统的相关因素进行分析。从性能、可靠性等方面优化串行化近数据处理模型。本文具体研究内容如下:(1)针对串行化近数据处理模型中主机和SSD的低利用率问题,提出了基于并行化近数据处理模型的数据库系统,对该系统中查询处理过程进行分析后,提出在单语句和多语句查询下系统的代价模型并得以验证。通过对数据库系统查询编译过程的优化以及添加设计基于伸缩迭代器的并行任务调度器,数据库系统在运行过程中能够动态调整查询算子的并行度,减少了查询过程中对中间结果的冗余处理,实现了并行化近数据处理模型。理论分析和实验结果表明,并行化近数据处理模型相较于串行化近数据处理模型,在大规模数据集中,进行复杂查询时,该模型可以更有效的提高数据库系统的查询速度,增加了主机和固态硬盘这两个部件在查询处理过程中的利用率,显著的提高了数据库系统的查询效率。(2)近数据处理模型下,数据库系统性能的优化程度受多方面因素影响,主要分为软件层面和硬件层面。由于软件因素在(1)实验中已经得出相关结论,所以对影响串行化近数据处理模型的因素进行分析后,针对硬件影响因素(I/O资源、CPU资源和SSD内部资源)影响并行化模型优化数据库系统的效果展开深入研究和实验。实验结果表明,并行化近数据处理模型对数据库系统的优化效果会受到I/O资源、CPU资源和SSD内部资源的影响。