Hadoop2.x介绍_hadoop2.x进程-程序员宅基地

技术标签: Hadoop  Hadoop介绍  Hadoop2.x介绍  

Hadoop2.x介绍

Hadoop简介

Hadoop是一个基础框架,允许用简单的编程模型在计算机集群对大型数据集使进行分布式处理。它的设计规模从单一服务器到数千台机器,每个都提供本地计算和存储,框架本身提供计算机集群高可用的服务而不是依靠硬件来提供高可用性。用户可以在不了解分布式底层细节的情况下,轻松地在Hadoop上开发和运行处理海量数据的应用程序,低成本、高可靠、高扩展、高有效、高容错等特性让Hadoop成为最流行的大数据分析系统。

Hadoop2.x基本架构演变

在1.x中,Hadoop的配置文件是放在$HADOOP_HOME/conf目录下的,关键的配置文件在src目录都有对应的存放着默认值的文件,如下:
配置文件 默认值配置文件

$HADOOP_HOME/conf/core-site.xml $HADOOP_HOME/src/core/core-default.xml
$HADOOP_HOME/conf/hdfs-site.xml $HADOOP_HOME/src/hdfs/hdfs-default.xml
$HADOOP_HOME/conf/mapred-site.xml $HADOOP_HOME/src/mapred/mapred-default.xml

我们在 H A D O O P H O M E / c o n f 下 面 配 置 的 c o r e − s i t e . x m l 等 的 值 , 就 是 对 默 认 值 的 一 个 覆 盖 , 如 果 没 有 在 c o n f 下 面 的 配 置 文 件 中 设 置 , 那 么 就 使 用 s r c 下 面 对 应 文 件 中 的 默 认 值 , 这 个 在 使 用 过 程 中 非 常 方 便 , 也 非 常 有 助 于 我 们 理 解 。 H a d o o p 可 以 说 是 云 计 算 的 代 名 词 , 其 也 有 很 多 衍 生 的 产 品 , 不 少 衍 生 的 配 置 方 式 都 遵 从 H a d o o p 的 这 种 配 置 方 式 , 如 H B a s e 的 配 置 文 件 也 是 HADOOP_HOME/conf下面配置的core-site.xml等的值,就是对默认值的一个覆盖,如果没有在conf下面的配置文件中设置,那么就使用src下面对应文件中的默认值,这个在使用过程中非常方便,也非常有助于我们理解。 Hadoop可以说是云计算的代名词,其也有很多衍生的产品,不少衍生的配置方式都遵从Hadoop的这种配置方式,如HBase的配置文件也是 HADOOPHOME/confcoresite.xmlconf使src使便HadoopHadoopHBaseHBase/conf目录,核心配置的名称就是hbase-site.xml,如果学习了Hadoop再去学习HBase,从配置的理解上来说,就会有一种亲切的感觉。

可是在2.x中,Hadoop的架构发生了变化,而配置文件的路径也发生了变化,放到了$HADOOP_HOME/etc/hadoop目录,这样修改的目的,应该是让其更接近于Linux的目录结构吧,让Linux用户理解起来更容易。Hadoop 2.x中配置文件的几个主要的变化:

  1. 去除了原来1.x中包括的$HADOOP_HOME/src目录,该目录包括关键配置文件的默认值;

  2. 默认不存在mapred-site.xml文件,需要将当前mapred-site.xml.template文件copy一份并重命名为mapred-site.xml,并且只是一个具有configuration节点的空文件;

  3. 默认不存在mapred-queues.xml文件,需要将当前mapred-queues.xml.template文件copy一份并重命名为mapred-queues.xml;

  4. 删除了master文件,现在master的配置在hdfs-site.xml通过属性dfs.namenode.secondary.http-address来设置,如下:

<property>
        <name>dfs.namenode.secondary.http-address</name>
        <value>nginx1:9001</value>
</property>
  1. 增加了yarn-env.sh,用于设置ResourceManager需要的环境变量,主要需要修改 JAVA_HOME;
  2. 增加yarn-site.xml配置文件,用于设置ResourceManager;

Hadoop2.x基本架构说明

说明:

  • MapReduce在Hadoop2中称为MR2或YARN,将JobTracker中的资源管理及任务生命周期管理(包括定时触发及监控),拆分成两个独立的服务,用于管理全部资源的ResourceManager以及管理每个应用的ApplicationMaster,ResourceManager用于管理向应用程序分配计算资源,每个ApplicationMaster用于管理应用程序、调度以及协调。一个应用程序可以是经典的MapReduce架构中的一个单独的任务,也可以是这些任务的一个DAG(有向无环图)任务。ResourceManager及每台机上NodeManager服务,用于管理那台机的用户进程,形成计算架构。每个应用程序的

  • ApplicationMaster实际上是一个框架具体库,并负责从ResourceManager中协调资源及与NodeManager(s)协作执行并监控任务。

  • 其中ResourceManager包含两个主要的组件:定时调用器(Scheduler)以及应用管理器(ApplicationManager)。

定时调用器(Scheduler):
定时调度器负责向应用程序分配置资源,它不做监控以及应用程序的状态跟踪,并且它不保证会重启由于应用程序本身或硬件出错而执行失败 的应用程序。
应用管理器(ApplicationManager):
应用程序管理器负责接收新任务,协调并提供在ApplicationMaster容 器失败时的重启功能。

节点管理器(NodeManager):
NodeManager是ResourceManager在每台机器的上代理,负责容器的管 理,并监控他们的资源使用情况(cpu,内存,磁盘及网络等),以及向 ResourceManager/Scheduler提供这些资源使用报告。

应用总管(ApplicationMaster):
每个应用程序的ApplicationMaster负责从Scheduler申请资源,以及 跟踪这些资源的使用情况以及任务进度的监控。

Hadoop特点

  • Hadoop是一个能够对大量数据进行分布式处理的软件框架,它是以一种可靠、高效、可伸缩的方式进行数据处理。
  • Hadoop 是可靠的,它假设计算元素和存储会失败,因此它维护多个数据副本,确保能够针对失败的节点重新分布处理。
  • Hadoop 是高效的,它以并行的方式工作,通过并行处理加快处理速度。
  • Hadoop 还是可伸缩的,能够处理PB级数据。
  • Hadoop是一个能够让用户轻松架构和使用的分布式计算平台。用户可以轻松地在Hadoop上开发和运行处理海量数据的应用程序。
  • Hadoop带有用Java语言编写的框架,因此运行在 Linux 生产平台上是非常理想的。Hadoop 上的应用程序也可以使用其他语言编写,比如C++。
  • Hadoop 依赖于社区服务,它的成本比较低。
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/qq_35809147/article/details/88874156

智能推荐

2020解读中国互联网:局部领先、快进的数字化发展_解读中国互联网:局部领先-程序员宅基地

文章浏览阅读133次。局部领先的当前格局:中国互联网特色分明,部分领域世界领先应对不确定性,是未来十年数字经济发展的重要命题。突如其来的新冠疫情为全球发展秩序带来了巨大的不确定性,政府、企业和个体迅速进入了一场全社会参与的数字化实验,以数字化作为应对不确定性的有效方针。在全社会数字化的进程中,中◿互联网“数智化”的步伐加快,呈现以下特色格局:在产业端,局部领先全球:产业互联网发展水平在不同行业差异明显。在需求端个性化程度高且供给端分散的行业,例如餐饮、服饰等,数字化程度已开始引领全球,互联网巨头赋能行业供应链各环节的B端企业_解读中国互联网:局部领先

关于Linux如何加入windows创建的域_linux账户验证使用windows域 活动目录-程序员宅基地

文章浏览阅读2.7k次,点赞2次,收藏11次。一、场景描述在某系统微服务改造中,在某windows域环境下,创建了3台Linux 虚拟机来进行功能性验证,为更好地彼此间信任和融合域环境,需要将Linux虚拟机加入到现有的Windows域内,那如何实施呢,本次将对此进行讨论阐述。回顾AD 域验证过程:自 Windows 2000 以来,AD 一直是 Windows 的身份验证和目录服务,AD 基于 LDAP 实现其功能,其使用 DNS 进行主机名的解析,使用 Kerberos V5 进行用户身份验证,使用 LDAP V3 进行统一的帐户管理。二、常_linux账户验证使用windows域 活动目录

qt设计为磨砂玻璃效果_Pixyz的2020.1更新为数据准备带来了磨砂和光泽-程序员宅基地

文章浏览阅读753次。qt设计为磨砂玻璃效果For their 2020.1 release, our partners at Pixyz have focused on improvements ranging from core geometry capabilities and new import formats to visualization and user interface enhancements...._qt将图片添加毛玻璃效果

网络协议 (三) Http1.0 vs Http1.1 vs Http2.0 (应用层)_http1.0和http1.1哪个占用资源-程序员宅基地

文章浏览阅读2.1k次。这篇文章会从下面几个维度来对比 HTTP 1.0 和 HTTP 1.1:响应状态码 缓存处理 连接方式 Host头处理 带宽优化1. 响应状态码Http1.1 与 Http1.0 相比,新加入了大量的状态码。2. 缓存处理Http1.0 中的缓存机制非常简单,服务端使用 Expires 标签来标识一个相应体,在 Expires 标志的时间内的所有请求,获得的都会是缓存。服务端 初次返回给 客户端 的响应体中,会有一个 Last-Modified 标签,该标签标记了被请求资源在_http1.0和http1.1哪个占用资源

【指纹识别】基于matlab指纹图像细节特征提取 【含Matlab源码 227期】_matlab指纹特征提取代码-程序员宅基地

文章浏览阅读6.2k次,点赞4次,收藏53次。指纹图像细节特征提取 完整的代码,方可运行;可提供运行操作视频!适合小白!_matlab指纹特征提取代码

DB2创建数据库常用参数详解-程序员宅基地

文章浏览阅读169次。转自http://czmmiao.iteye.com/blog/1335801DB2创建数据库常用参数详解本文只介绍DB2 create database语法中的常用参数http://publib.boulder.ibm.com/infocenter/db2luw/v9/index.jsp CREATE DATABASE语法树Read syntax diagramSkip visua..._database collating sequence

随便推点

JAVA中MD5加密解密(MD5工具类)_java md5解密工具类-程序员宅基地

文章浏览阅读2w次,点赞5次,收藏69次。ASCII ((American Standard Code for Information Interchange): 美国信息交换标准代码)http://ascii.911cha.com/工具类如下:import org.apache.commons.codec.digest.DigestUtils;import java.math.BigInteger;import java.se..._java md5解密工具类

SM2加密解决java与iOS端加解密不配套问题_ibm jdk支持sm2加密-程序员宅基地

文章浏览阅读4.5k次,点赞3次,收藏3次。SM2加密解决java与iOS端加解密不配套问题问题描述问题判定代码声明问题描述使用java开发的SM2加解密,由java层生成SM2公私钥,iOS、Android(因和java层一致,暂忽略)层使用公钥做加密,java层做解密。java生成的公私钥在iOS和java层单独做加解密均可用。iOS层加密结果java层无法解密问题判定SM2非对称加密的结果由C1,C2,C3三部分组成。其中C1是生成随机数的计算出的椭圆曲线点,C2是密文数据,C3是SM3的摘要值。最开始的国密标准的结果是按C1C_ibm jdk支持sm2加密

Python爬虫踩坑之json报错,json包比较_python爬虫json载荷遇到的坑-程序员宅基地

文章浏览阅读3.1k次。json.loads()报错simplejson,demjson,json性能比较_python爬虫json载荷遇到的坑

【数据分享】2000~2022年中国区域250米植被覆盖度FVC数据集_植被覆盖度fvc产品-程序员宅基地

文章浏览阅读279次。通过时空变化趋势分析检验法分析,该数据集符合时间变化趋势和空间变化趋势。文件命名:HXPT_FVC_MONTH_MAX_250m_YYYYMM_全国_yyyymmddhhmmss.tif,其中HXPT代表国家生态保护红线监管平台生产,FVC代表植被覆盖度,MONTH代表月度,MAX代表最大值合成,250m代表空间分辨率250米,全国代表覆盖范围全国,YYYYMM代表数据时间年月,yyyymmddhhmmss代表数据生产时间年月日时分秒 数据读取方式:文件采用.tif格式存储,可用ArcGIS等软件打开。_植被覆盖度fvc产品

国密SM算法及实现加密和解密_import com.antherd.smcrypto.sm4.sm4; import com.an-程序员宅基地

文章浏览阅读475次。【代码】国密加密算法及实现。_import com.antherd.smcrypto.sm4.sm4; import com.antherd.smcrypto.sm4.sm4opti

Implicit Neural Representations for Image Compression_inrs 图像压缩-程序员宅基地

文章浏览阅读151次。隐性神经表征(INRs)作为各种数据类型的一种新颖而有效的表征而受到关注。最近,先前的工作将 INRs 应用于图像压缩。这种压缩算法作为一种通用的方法,对任何基于坐标的数据模式都是很有希望的。然而,目前基于 INR 的压缩算法需要在很大程度上改善其率失真性能。这项工作在这个问题上取得了进展。首先,我们为基于 INR 的压缩算法提出了元学习的初始化,从而提高了速率失真性能。此外,它也导致了更快的收敛速度。其次,与之前基于 INR 的压缩工作相比,我们对网络结构进行了简单但非常有效的改变。_inrs 图像压缩

推荐文章

热门文章

相关标签