Hadoop的发展及其架构

2022-03-10 作者: 五分钟学大数据

1. hadoop概念及其发展

Hadoop最早起源于Nutch。Nutch的设计目标是构建一个大型的全网搜索引擎，包括网页抓取、索引、查询等功能，但随着抓取网页数量的增加，遇到了严重的可扩展性问题——如何解决数十亿网页的存储和索引问题。

2003年、2004年谷歌发表的两篇论文为该问题提供了可行的解决方案。

分布式文件系统（GFS），可用于处理海量网页的存储
分布式计算框架MAPREDUCE，可用于处理海量网页的索引计算问题。

Nutch的开发人员完成了相应的开源实现HDFS和MAPREDUCE，并从Nutch中剥离成为独立项目HADOOP，到2008年1月，HADOOP成为Apache顶级项目(同年，cloudera公司成立)，迎来了它的快速发展期。

狭义上来说，hadoop就是单独指代hadoop这个软件

广义上来说，hadoop指代大数据的一个生态圈，包括很多其他的软件

2. hadoop的历史版本介绍

0.x系列版本：hadoop当中最早的一个开源版本，国外使用较多，因为当时国内大数据还没发展起来，在此基础上演变而来的1.x以及2.x的版本

1.x版本系列：hadoop版本当中的第二代开源版本，主要修复0.x版本的一些bug等，是存在时间最短的一代。

2.x版本系列：架构产生重大变化，引入了yarn平台等许多新特性，国内目前使用最多的版本，因为当时国内正处于大数据爆发的阶段。

3.x版本系列：引入了一些重要的功能和优化，包括HDFS 纠删码、多Namenode支持(两个以上)、MR Native Task优化、YARN基于cgroup的内存和磁盘IO隔离等，且对JDK最低版本要求为JDK1.8。发行时间较晚，目前使用不多，但未来必将成为主流。

3. hadoop三大公司发型版本介绍

3.1 免费开源版本apache

优点：拥有全世界的开源贡献者，代码更新迭代版本比较快

缺点：版本的升级，版本的维护，版本的兼容性，版本的补丁都可能考虑不太周到，学习可以用，实际生产工作环境尽量不要使用

apache所有软件的下载地址（包括各种历史版本）：

3.2 免费开源hortonWorks

hortonworks主要是雅虎主导Hadoop开发的副总裁，带领二十几个核心成员成立Hortonworks，核心产品软件HDP（ambari），HDF免费开源，并且提供一整套的web管理界面，供我们可以通过web界面管理我们的集群状态，web管理界面软件HDF网址（）

3.3 软件收费版本ClouderaManager

cloudera主要是美国一家大数据公司在apache开源hadoop的版本上，通过自己公司内部的各种补丁，实现版本之间的稳定运行，大数据生态圈的各个版本的软件都提供了对应的版本，解决了版本的升级困难，版本兼容性等各种问题

4. hadoop的模块组成

1）Hadoop HDFS：一个高可靠、高吞吐量的分布式文件系统。

2）Hadoop MapReduce：一个分布式的离线并行计算框架。

3）Hadoop YARN：作业调度与集群资源管理的框架。

4）Hadoop Common：支持其他模块的工具模块。

5. hadoop的架构模型

NameNode与ResourceManager单节点架构模型

文件系统核心模块：

NameNode：集群当中的主节点，主要用于管理集群当中的各种数据

secondaryNameNode：主要能用于hadoop当中元数据信息的辅助管理

DataNode：集群当中的从节点，主要用于存储集群当中的各种数据

数据计算核心模块：

ResourceManager：接收用户的计算请求任务，并负责集群的资源分配

NodeManager：主要用于接收applicationMaster分配的任务

applicationMaster: resourcemanager为每个计算任务启动一个appMaster, appMatser主要负责资源的申请, 任务的分配

NameNode与ResourceManager高可用架构模型

文件系统核心模块：

NameNode：集群当中的主节点，主要用于管理集群当中的各种数据，一般都是使用两个，实现HA高可用

JournalNode：元数据信息管理进程，一般都是奇数个

DataNode：从节点，用于数据的存储

数据计算核心模块：

ResourceManager：Yarn平台的主节点，主要用于接收各种任务，通过两个，构建成高可用

NodeManager：Yarn平台的从节点，主要用于处理ResourceManager分配的任务