初识Hadoop
- Hadoop🐘是一个由Apace基金会所开发的分布式系统基础架构
- 主要解决海量数据的存储和海量数据的分析计算问题
1. Hadoop三大发行版本
Hadoop三大发行版本:Apache、Cloudera、Hortonworks。 其中Apache的是最原始(最基础)的版本,对于入门学习最好。
Cloudera在大型互联网企业中用的较多。 Hortonworks文档较好。
- Apache Hadoop
官网地址:http://hadoop.apache.org/releases.html
下载地址:https://archive.apache.org/dist/hadoop/common/ - Cloudera Hadoop
官网地址:https://www.cloudera.com/downloads/cdh/5-10-0.html
下载地址:http://archive-primary.cloudera.com/cdh5/cdh/5/ - Hortonworks Hadoop
官网地址:https://hortonworks.com/products/data-center/hdp/
下载地址:https://hortonworks.com/downloads/#data-platform
2. Hadoop优势
- 高可靠性: Hadoop底层维护多个数据副本,即使Hadoop某个计算元素或存储出现故障,也不会导致数据的丢失
- 高扩展性: 在集群间分配任务数据,可方便的扩展数以千计的节点
- 高效性: 在MapReduce的思想下,Hadoop是并行工作的,以加快任务处理速度。
- 高容错性: 能够自动将失败的任务重新分配
三、Hadoop组成
- Hadoop1.x和Hadoop2.x的区别
提示
Hadoop3.x也是由HDFS、YARN、MapReduce组成。
- HDFS(Hadoop Distributed File System)架构
NameNode(nn): 存储文件的元数据,如文件名、文件目录结构、文件属性(生成时间、副本数、文件权限),以及每个文件的块列表和块所在的DataNode等。
DataNode(dn): 在本地文件系统存储文件块数据,以及块数据的校验和。
Secondary NameNode(2nn): 用来监控HDFS状态的辅助后台程序,每隔一段时间获取HDFS的元数据的快照📷。 - YARN架构
ResourceManager: 处理客户端请求; 监控NodeManager; 启动和监控ApplicationMaster; 资源分配和调度。
NodeManager: 管理单个节点上的资源; 处理来自ResouceManager上面的命令; 处理来自ApplicationMaster上面的命令。NodeManager里面包含了ApplicationMaster(负责数据切分、为应用程序申请资源并分配给内部任务、任务的监控和容错)和Container(Yarn中资源的抽象对象,里面疯封装了CPU、内存、磁盘等节点资源)。 - MapReduce架构
MapReduce将计算过程分为两个阶段:Map和Reduce
1)Map阶段并行处理输入数据
2)Reduce阶段对Map结果进行汇总
四、大数据架构
目前主流的大数据架构组成: