hdfs 流式数据怎么理解?那一般的数据访问模式是怎样的
发布网友
发布时间:2022-04-25 14:43
我来回答
共2个回答
热心网友
时间:2022-04-14 07:38
收集到部分数据就开始处理,不是收集到全部数据再处理。每次分析都涉及数据集的大部分数据,收集全部数据延迟大,也会消耗大量内存。
热心网友
时间:2022-04-14 08:56
一、HDFS的主要设计理念
1、存储超大文件
这里的“超大文件”是指几百MB、GB甚至TB级别的文件。
2、最高效的访问模式是 一次写入、多次读取(流式数据访问)
HDFS存储的数据集作为Hadoop的分析对象。在数据集生成后,长时间在此数据集上进行各种分析。每次分析都将设计该数据集的大部分数据甚至全部数据,因此读取整个数据集的时间延迟比读取第一条记录的时间延迟更重要。
3、运行在普通廉价的服务器上
HDFS设计理念之一就是让它能运行在普通的硬件之上,即便硬件出现故障,也可以通过容错策略来保证数据的高可用。