发布网友 发布时间:2022-04-22 03:28
共1个回答
热心网友 时间:2022-04-08 21:14
Hadoop是一个开源框架,用于以分布式方式存储和处理大数据。Hadoop的核心组件是 -
HDFS(Hadoop分布式文件系统) - HDFS是Hadoop的基本存储系统。在商用硬件集群上运行的大型数据文件存储在HDFS中。即使硬件出现故障,它也能以可靠的方式存储数据。
Hadoop MapRece - MapRece是负责数据处理的Hadoop层。它编写了一个应用程序来处理存储在HDFS中的非结构化和结构化数据。它负责通过将数据划分为独立任务来并行处理大量数据。处理分两个阶段完成Map和Rece。Map是指定复杂逻辑代码的第一个处理阶段,Rece是指定轻量级操作的第二阶段处理。
YARN - Hadoop中的处理框架是YARN。它用于资源管理并提供多种数据处理引擎,即数据科学,实时流和批处理。