一、hadoop的发展历史
网上资料很多,这里就不浪费时间介绍了,感兴趣的自己找“度娘”。
注意一点: 狭义上来说,hadoop就是单独指代hadoop这个软件 , 广义上来说,hadoop指代大数据的一个生态圈,包括很多其他的软件
在下面的章节中,没有特殊说明,我们都是指的是hadoop这个软件。
hadoop生态大致包括以下技术:
二、hadoop的版本介绍
0.x系列版本:hadoop当中最早的一个开源版本,在此基础上演变而来的1.x以及2.x的版本
1.x版本系列:hadoop版本当中的第二代开源版本,主要修复0.x版本的一些bug等
2.x版本系列:架构产生重大变化,引入了yarn平台等许多新特性,也是现在生产环境当中使用最多的版本
3.x版本系列:在2.x版本的基础上,引入了一些hdfs的新特性等,且已经发型了稳定版本,未来公司的使用趋势
注意:我们以后的课程都是以hadoop3.x版本为例,有些地方的配置及概念是有别于2.x的。三、 hadoop生产环境版本选择
Hadoop三大发行版本:Apache、Cloudera、Hortonworks。
Apache版本最原始(最基础)的版本,对于入门学习最好。
Cloudera在大型互联网企业中用的较多。
Hortonworks文档较好。
注:Cloudera和Hortonworks你可以理解为Linux和Centos的关系。四、hadoop的架构模块介绍
Hadoop框架组成
Hadoop由三个模块组成:分布式存储HDFS、分布式计算MapReduce、资源调度引擎Yarn
Hadoop架构体系
HDFS模块:namenode:主节点,主要负责HDFS集群的管理以及元数据信息管理
datanode:从节点,主要负责存储用户数据secondaryNameNode:辅助namenode管理元数据信息,以及元数据信息的冷备份
Yarn模块:ResourceManager:主节点,主要负责资源分配NodeManager:从节点,主要负责执行任务