加入收藏 | 设为首页 | 会员中心 | 我要投稿 成都站长网 (https://www.028zz.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 云计算 > 正文

分布式文件存储系统技术及实现

发布时间:2022-12-10 18:31:09 所属栏目:云计算 来源:网络
导读: 分布式存储客观需求
内容介绍:
一、大数据对分布式存储的需求
一、大数据对分布式存储的需求
1.当前业务对分布式存储的需求以及现在达到的水平。
(1)要对1PB数据排序,需要怎样的存储系

分布式存储客观需求

内容介绍:

一、大数据对分布式存储的需求

一、大数据对分布式存储的需求

1.当前业务对分布式存储的需求以及现在达到的水平。

(1)要对1PB数据排序,需要怎样的存储系统?

首先这1PB数据在排序的时候会产生一些临时数据,另外输出结果也要有1PB,所以在这整个过程中,需要的存储量大概在3PB-4PB,

(2)如果说当前的存储系统有多个用户同时使用的话,同时考虑到系统要留一些存储空间用于后期扩展,那每个机型的存储量至少要在100PB左右。如果要求1PB数据在两小时之内完成,那对于数据的吞吐量也有一定的要求。

(3)在这个网站上,最新更新了阿里云研发的云计算平台关键性能数据,对于Gray这种排序来说,两三年前排序100TB数据需要几百分钟的时间消耗,在去年最好的成绩是1400多秒,今年平台上达到了377秒,可以看到每年都有很大的改善,同时要求底层的分布式存储系统也要有大的改善,能达到吞吐量的要求。

2.总结:

(1)大数据对分布式存储的需求:

·存储容量大(目前阿里云分布式存储系统盘古最大容量200PB)

·高吞吐率(如果说1PB的数据在两小时之内算完,那要求每秒的吞吐量在几十GB左右,另外数据规模的增长同时带来的是硬件的损坏率)

·提高数据的可靠性(目前盘古系统在5000台集群的规模下,可以达到99.999999%的数据安全性。在5000台集群里面,100年左右会出现一次数据丢失)

·数据服务高可用(单独看分布式存储系统的高可用,达到99.95%云计算分布式系统,就是每年大概有4-5个小时不服务,如果应用层在分布式存储系统上做容错机制,就可以达到更高的可用性)

·高效运维(随着集群规模变大,如果每一次故障排查或者硬件更换都需要人为进行操作,那是不可思议的。高效运维的第一点就是要将日常硬件处理作为常态,做成流程化;第二点就是对于监控、报警等机制也要有非常完善的支持)

·低成本(是存储系统的核心竞争力,只有在保证数据安全、正确服务稳定的前提下降低成本,才是分布式存储的核心竞争力)

(编辑:成都站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!