Skip to content

初识Hadoop

  • Hadoop🐘是一个由Apace基金会所开发的分布式系统基础架构
  • 主要解决海量数据的存储和海量数据的分析计算问题

1. Hadoop三大发行版本

Hadoop三大发行版本:Apache、Cloudera、Hortonworks。 其中Apache的是最原始(最基础)的版本,对于入门学习最好。
Cloudera在大型互联网企业中用的较多。 Hortonworks文档较好。

  1. Apache Hadoop
    官网地址:http://hadoop.apache.org/releases.html
    下载地址:https://archive.apache.org/dist/hadoop/common/
  2. Cloudera Hadoop
    官网地址:https://www.cloudera.com/downloads/cdh/5-10-0.html
    下载地址:http://archive-primary.cloudera.com/cdh5/cdh/5/
  3. Hortonworks Hadoop
    官网地址:https://hortonworks.com/products/data-center/hdp/
    下载地址:https://hortonworks.com/downloads/#data-platform

2. Hadoop优势

  1. 高可靠性: Hadoop底层维护多个数据副本,即使Hadoop某个计算元素或存储出现故障,也不会导致数据的丢失
  2. 高扩展性: 在集群间分配任务数据,可方便的扩展数以千计的节点
  3. 高效性: 在MapReduce的思想下,Hadoop是并行工作的,以加快任务处理速度。
  4. 高容错性: 能够自动将失败的任务重新分配

三、Hadoop组成

  1. Hadoop1.x和Hadoop2.x的区别 Alt text

提示

Hadoop3.x也是由HDFS、YARN、MapReduce组成。

  1. HDFS(Hadoop Distributed File System)架构
    NameNode(nn): 存储文件的元数据,如文件名、文件目录结构、文件属性(生成时间、副本数、文件权限),以及每个文件的块列表和块所在的DataNode等。
    DataNode(dn): 在本地文件系统存储文件块数据,以及块数据的校验和。
    Secondary NameNode(2nn): 用来监控HDFS状态的辅助后台程序,每隔一段时间获取HDFS的元数据的快照📷。
  2. YARN架构
    ResourceManager: 处理客户端请求; 监控NodeManager; 启动和监控ApplicationMaster; 资源分配和调度。
    NodeManager: 管理单个节点上的资源; 处理来自ResouceManager上面的命令; 处理来自ApplicationMaster上面的命令。NodeManager里面包含了ApplicationMaster(负责数据切分、为应用程序申请资源并分配给内部任务、任务的监控和容错)和Container(Yarn中资源的抽象对象,里面疯封装了CPU、内存、磁盘等节点资源)。
  3. MapReduce架构
    MapReduce将计算过程分为两个阶段:MapReduce
    1)Map阶段并行处理输入数据
    2)Reduce阶段对Map结果进行汇总

四、大数据架构

目前主流的大数据架构组成: Alt text