分布式存储的“掘金”机会
Filecoin主网上线,将整个分布式存储板块带到了一个高光位置。作为Web3.0以及数字经济时代的基础设施,其利用数据要素的存储市场带来了全新的商业模式和经济业态,但是分布式存储只能算作是一个重要的起点,真正的价值产生在于它的下一步。
数据成为资产的前提是数量和必要性的增长
随着5G、AI、物联网发展推动万物互联时代到来,万事万物需要被记录并用数据表达,数据将从单一内部小数据向多元动态大数据转变。尤其有工业互联网4.0及自动驾驶、智慧城市、智慧家居等新型产业终端设备的接入,数据将呈现爆炸式增长。
至于这种数据量到底有多大,据英特尔曾经预测,在今年全球数据总量将达到44ZB=44万亿GB,IDC预测中除了表达了全球数据圈的规模将由2018年的33ZB增长至2025年的175ZB,更指出文本、图片、视频等非结构化数据将拥有更高的增长率,在整体数据圈的占比也将持续增加。这也就意味着,需要更先进的互联网基础架构来对数据进行采集、存储、和利用。
分布式存储在叙事上的成功在于,它借助去中心化的商业模式初步实现了数据生产者和所有者掌控数据的设想,利用激励模型调动了一个可能会非常庞大且活跃的数据存放市场。但问题在于,数据本身没有价值,它只有经过处理、计算、分析才会产生价值,才会被赋予定价。所以我们不能只思考数据放在哪儿更安全,最终的目标应该是存起来之后怎么去用才能去挖掘分布式存储下数据的价值。
针对数据计算的最优解一直在变化
其实,自始至终人们对算力增长的追求从未停过,尤其在互联网出现之后,这种算力战越演越烈,算力和处理在集中式架构和分布式架构之间交替往复。而随着互联网、企业 IT和智能手机的大规模商用,激起了以大型集中服务器群为基础的云计算浪潮。这个过程里,包含了从早期人工化代码编译计算,到模块脚本的功能微服务,再到为了应对高并发数据计算,专门化的IDC数据中心出现,以及后来为了进一步释放资源的长期价值,将机器配置成服务,这也成为了我们现在常提到的云计算的雏形。云计算的到来带来了意想不到的利好,你不必在电脑上安装各种软件,只需访问"云",互联网巨头就可以提供现成的计算能力,相伴的,云存储服务也炙手可热。
任何事情都有正反两面,云计算和存储在发展中出现了自身局限性:首先,行业呈现互联网巨头垄断式发展,很难调动起一个超大规模的资源市场,这个市场包含存储资源、算力等等,其次,中心化存储方式,不仅存储数据无法公开透明,还极易收到恶意攻击,安全系数较低;再次,数据采集-云中心-数据消费的云计算范式,不可避免的遇到高延迟、网络不稳定和低宽带问题。在数据体量和交换速度暴增的情况下,反而会造成低效的结果。
基于物联网等技术的不断发展、数据的不断增加这一内外部环境背景下,行业一直在寻找最优解决方案,从集群式到分散式的路径上拓展,像分布式计算框架等、虚拟化计算等都一定程度上解围集中性计算的弊端,而新的需求(如物联网和企业)以及5G时代超低时延业务的潜力正在将计算拉近最终用户,这表示业务模式从以网络为中心转变为以工作负载为中心,标志着算力和资源靠近客户部署的分布式转型将成为趋势,由此新兴的边缘计算乘风而起。
边缘计算能否成为分布式存储的最佳实践
何为边缘计算,Gartner 将边缘计算定义为“分布式计算拓扑的一部分,其中信息处理位于边缘附近,即事物和人员生成或使用该信息的地方。”直白的说,它是更接近数据的源头的一种计算方式。”例如,带有视觉处理功能的摄像头、通过蓝牙向手机发送数据的可穿戴医疗设备等都利用到了边缘计算。
与云计算相比,边缘计算更靠近终端,减少传输成本同时,分散宽带降低时延,此外,边缘计算比集中模式提供更多的通信路径,这种分布可以更好地保障数据通信的弹性,最重要的是,边缘计算平台提供新的入口,可以使处于闲置状态下的智能终端工作起来,实现物理资源共享。凭借诸多优良特性,边缘计算将成为未来十年及以后服务器和存储市场的主要增长引擎之一。
那么边缘计算为什么需要分布式存储?首先是物联网、5G、AI等技术带来了更多应用场景和智慧终端以及更快的连接速度,这样的背景下,各种终端将接入互联网并作为边缘计算的计算设施,提供高速且及时的计算基础,随之而来的将是更多的数据被产生,如何解决庞大数据规模的存储将是必须面对的问题。现有的物联网存储设备主要靠本地存储单元来保存数据,在存储能力有限,存储扩展比较困难。
而分布式存储项目正好可以解决这样的问题。当边缘计算产生数据存储需求,分布式存储可以依靠全球化接入节点提供就近存储服务,按需按量的提供最优且距离最近的存储资源,其提供的边缘存储方案,可以将不同存储业务的垂直拓展变成水平拓展,降低带宽耗能并提高存储的反应速度,实现近距离按需优化存储。像Filecoin、Storj等项目就在解决这样的问题。其一定程度上也提高了闲置资源利用率,激发了用户充分利用数据创造价值的热情。
二者的配合是相辅相成的,具体来说,基于边缘计算可以有效的调动闲置的宽带和计算资源,而通过分布式存储方案的激励体系,可以调动现有社会上存量资源去作为边缘计算的基础设施,这将大大缩短边缘计算的建设周期,形成组织网络,解决资源有效配置问题。这对于处在起步阶段的边缘计算来说意义重大。而且边缘计算的网状结构和分布式存储的网状结构可以形成很好的契合关系,每一个计算终端可以就近获取成本更低的存储节点的空间,如果分布式存储能够解决目前的数据封装、读取速度以及隐私保护方面的问题,那么其可以减少主干网络的带宽和存储资源占用,并且成本上也更加低廉。
这种优势非常适合应用于未来智慧城市的建设,试想一下,一个智慧城市形成的物联网络所涉及的终端以及协作关系是极其庞大且复杂的,在建设和快速发展的过程中,仅凭政府的力量很难在一开始就为这个网络搭建好一个成型的基础设施环境。并且中心化方案对智慧城市这种超大型网络的风险是极高的,一次重大问题可能导致整个城市的系统瘫痪。这里就更加能体现分布式存储的必要性,一个是成本另外一个就是分布式系统带来的风险抵抗能力。
不止于此,在解决基础需求后,二者还可以创造出更多的应用案例,首先个人存储市场和小型数据中心将成为行业趋势。数据显示2020年中国互联网用户规模为9亿多,而移动互联网用户规模更高达13亿,个人网盘月度活跃用户超1亿,个人存储市场仍有庞大的潜在用户基础和可利用存储空间。面对数据规模的高速增长,边缘云计算利用分布式文件系统将个人闲置的存储资源投入到网络中,进行市场交换,将成为分布式存储率先进入的领域之一。除此之外,二者结合的创新想象可能发生在小到家庭中的每一个物件,大到智慧城市的商业场景中,并为未来可能诞生的服务体系奠定坚实的基础,总之,下半场的好戏值得期待。