近日,计算机科学与技术学院体系结构与嵌入式研究团队在键值存储系统设计研究中取得重大进展,在计算机体系结构领域顶级学术会议usenix fast'22(20th usenix conference on file and storage technologies)以长文形式发表论文“removing double-logging with passive data persistence in lsm-tree based relational databases”(通过被动数据持久化同步解决新型关系数据库的日志冗余问题)。论文第一作者为计算机学院硕士生黄克成(指导老师:申兆岩副教授、贾智平教授),申兆岩副教授担任本文的通讯作者,山东大学为该论文的第一作者单位和通讯作者单位。
存储引擎是关系数据库中的关键组件。随着互联网云服务和大数据应用的出现,最新的技术趋势是在关系数据库中部署基于log-structured merge tree (lsm-tree)的存储引擎。虽然集成lsm-tree作为存储引擎可以取得更好的读写性能和更高效的存储空间利用率,但这种新的双层结构也引发了冗余日志问题, 导致写放大和不必要的性能开销。该论文提出了一种被动数据持久化方案(pasv),有效地解决了基于lsm -tree关系数据库的冗余日志问题。通过被动内存缓冲区刷新策略、基于epoch的数据持久化方案以及局部数据恢复机制,实现了运行期间数据库持久化的低开销以及故障的快速恢复。
usenix fast会议创办于2002年,是中国计算机学会推荐计算机体系结构领域的a类国际会议,也是存储系统领域最高水平会议,参与者包括全球从事存储系统研究的高校、研究院和企业科研人员。该会议每年录用论文仅二十五篇左右,过去五年平均录取率为16%。本论文是山东大学在此领域发表的首篇文章,该项研究工作得到国家自然科学基金青年科学基金项目和山东大学青年学者“未来计划”项目的支持。