活动主持人

个人签名

169篇博客

分布式存储方面新的研究方向有哪些

活动主持人2020-04-20 17:53

分布式存储是指分布式有状态存储型服务。在当前的技术信息系统中是很重要的一个环节。分布式存储方面有哪些新的研究方向?

想要得到这个问题的答案,需要回到问题本身。即:分布式存储服务的核心是什么?抽象上来说:高性能、高可用、高可靠、可扩展、低成本。

那么在评估一个分布式存储服务是优秀还是平庸的时候,就要从这些角度进行展开。事实上,随着近20年来互联网的发展,在互联网和云计算领域中,高可用、高可靠、扩展性、成本等早已取得突破性的进展。WAL技术、一致性协议(PaxosRaft、各种一致性协议变种)、EC纠删码技术、扩展性技术(Hash分区、range分区、Crush等等、CopySet Placement等等)都归属于其中。

另外,高性能是其中值得关注的一点,这关乎硬件的发展。众所周知的是,摩尔定律逐渐失效,当前计算机性能的提升需要依赖更多的核心数量,同时结合优秀的多核应用程序。但是SSD 技术、网络技术两大硬件在IO方面得到不小的进步。从下图中就可以看出,主流厂商的ssd性能的提升。

和传统的机械硬盘进行对比,IOPS能力和latency的提升都达到了2-3个数量级,与之相应的,传统内核CPU的中断机制驱动磁盘模式早已无法满足需求。过多的内存拷贝、Context Switch等使得服务器驱动这些高性能组件需要非常多的CPU。在这种情况下,一个CPU最多只能驱动底层100wIOPS。而如上图中SSD的性能已经是64wIOPS读 加 20w IOPS 写了。所以如果想要驱动存储机器上20甚至更高密度盘位的SSD,就没办法干其他事情了。因此,目前的ssd厂商都陆续推出了基于用户态IO套件,以支撑当前高速发展的SSD技术。

网络也是一样,用户态RDMA技术、DPDK组件。

所以高性能分布式存储使用各种wait-freelock-free的数据结构和用户态组件bypass 内核来充分发挥底层高性能存储介质的性能,降低latency

随着硬件性能的快速提升,结合低延迟用户态软件的发展,性能这个难题得到了解决,这使得软件定义存储得到迅速的发展。

性能、规模、成本、高可用、高可靠这些问题被底层统一存储全部解决,因此足以向上层提供弹性灵活的存储。

也是因为如此,基于底层统一存储的云原生产品取得了快速的发展。比如各种云原生数据库、基于AWS S3 的数据湖方案等。

作为云计算大数据技术服务商,网易云提供包含存储在内的轻舟微服务平台,以完整、易用的解决方案,大大提升业务研发效率。