hadoop总结

Posted by linhuanjie on 2019-01-28

Hadoop定义

Hadoop是一个由Apache基金会所开发的分布式系统基础架构。
Hadoop的框架最核心的设计就是:HDFSMapReduce。HDFS为海量的数据提供了存储,而MapReduce则为海量的数据提供了计算。

HDFS

hdfs

1、NameNode(nn):存储文件的元数据,如文件名,文件目录结构,文件属性(生成时间、副本数、文件权限),以及每个文件的块列表和块所在的DataNode等。

2、DataNode(dn):在本地文件系统存储文件块数据,以及块数据的校验和。

3、Secondary NameNode(2nn):用来监控HDFS状态的辅助后台程序,每隔一段时间获取HDFS元数据的快照。

YARN架构:

1、ResourceManager(RM)主要作用如下:

​ 1)处理客户端请求

​ 2)监控NodeManager

​ 3)启动或监控ApplicationMaster

​ 4)资源的分配与调度

2、NodeManager(NM)主要作用如下:

​ 1)管理单个节点上的资源

​ 2)处理来自ResourceManager的命令

​ 3)处理来自ApplicationMaster的命令

3、ApplicationMaster(AM)作用如下:

​ 1)负责数据的切分

​ 2)为应用程序申请资源并分配给内部的任务

​ 3)任务的监控与容错

4、Container

​ Container是YARN中的资源抽象,它封装了某个节点上的多维度资源,如内存、CPU、磁盘、网络等。