数据编码与成本魔法(成本-性能模型)

数据编码与成本魔法(成本-性能模型)

ℹ️
✋🏻😭✋🏻 本小节编辑中 ✍️✍️✍️

成本优先

分布式存储的成本始终是用户关注的重点之一。企业和用户在当今注重精益运营、降本增效的背景下,也越来越重视单位数据的存储成本。

比如,在所有需要持久存储的互联网媒体数据中,大概也符合 28 定律,即 80% 的数据只占有了 20% 的访问量[^fb_data_rate]。再比如,某用户的读写模型都是纯写、几乎不读(合规存档目的)。针对这些数据特征,是不是仍有降低成本的空间?都是非常有实际意义的研究课题。

近年来,在实际业务需求中探索存储成本,在满足性能需求前提下制定合适的编码策略,也成为了分布式存储开发者必备技能之一。

数据可靠:多个篮子,得加钱

密度和性能:水池变大了,但水管没变

冷数据与介质

编码、成本与性能模型

冗余度与信息论

副本

EC 编码

LRC 编码

动手做:为用户制定合适的编码策略

小结