• 0

    用户访问量

  • 0

    注册用户数

  • 0

    在线视频观看人次

  • 0

    在线实验人次

Hive介绍,Hive是什么意思
Hive介绍:1、Hive工作原理Hive本质上是一个SQL解析引擎,它将SQL语句转译成MapReduce作业并在Hadoop上执行。Hive执行过程如下,其工作原理如图。(1)用户通过用户接口连接Hive,发布HiveQL。(2)Hive解析查询并制定查询计划。(3)Hive将查询转换成MapReduce作业。(4)Hive在Hadoop上执行MapReduce作业。2.体现架构Hive的体系架构如图所示,按功能主要分5大模块:用户接口、Thrift服务器、解析器、MetaStore元数据和Hadoop集群。3.数据模型Hive包含以下四种数据模型:内部表(ManagedTable)、外部表(ExternalTable)、分区(Partition)和桶(Bucket)。Hive中的数据存储如下图所示。(1)内部表(ManagedTable)。每个Hive内部表在HDFS中都有对应目录用来存储表的数据。内部表的创建过程和数据加载过程可以分别独立完成,也可以在同一个语句中完成。删除内部表时,表中的数据和元数据会被同时删除。(2)Hive外部表(ExternalTable)Hive外部表和内部表在元数据组织上是一样的,但在实际数据存储上有较大差异。外部表数据不存储在自己表所属目录中,存储在LOCATION指定的HDFS路径中。外部表仅有一个过程,创建表和数据加载过程同时进行和完成。删除外部表仅仅是删除外部表对应的元数据,外部表所指向的数据不会被删除。创建外部表使用EXTERNAL关键字。(3)分区(Partition)分区是表的部分列的集合。一般为频繁使用的数据建立分区,在查找分区中数据时不用扫描全表,有利于提高查找效率。Hive每个表有一个相应的目录存储数据,表中的的每一个分区对应表目录下的一个子目录,每个分区中的数据存储在对应子目录下的文件中。例如,表member(假定包含分区字段gender)在HDFS的路径为/user/hive/warehouse/member,分区gender=F对应的HDFS路径为/user/hive/warehouse/member/gender=F,分区gender=M对应的HDFS路径为/user/hive/warehouse/member/gender=M,当导入数据到分区gender=F,则数据存储在/user/hive/warehouse/member/gender=F/000000_0文件中,当导入数据到分区gender=M,则数据存储在/user/hive/warehouse/member/gender=M/000000_0文件中。(4)桶(Bucket)桶是将表的列通过Hash算法进一步分解成不同的文件存储。对指定列计算hash值,根据hash值切分数据,目的是为了并行。每一个桶对应一个文件(注意和分区的区别)。分区是粗粒度的划分,桶是细粒度的划分,这样可以让查询发生在小范围的数据上,提高查询效率,适合进行表连接查询,适合用于采样分析。比如,要将member表的id列分散至32个桶中,首先对id列的值进行Hash值计算,其中对应Hash值是0的数据存储在/hive/warehouse/member/000000_0文件中,对应Hash值是1的数据存储在/hive/warehouse/member/000001_0文件中,依次类推。
作者:云创智学 来源:云创智学 发布时间:2022-02-23 10:17:43
HBase安全模式配置
HBase安全模式配置:1.安全访问配置1)客户端安全访问在每台服务器的hbase-site.xml配置文件中设置hbase.security.authentication、hbase.security.authorization、hbase.coprocessor.region.classes等属性来要求客户端必须通过Kerberos认证才能访问HBase。配置修改之后必须关闭整个HBase集群再重新启动才能生效。客户端也需要在hbase-site.xml中将hbase.security.authentication设置为kerberos才能访问集群,如果客户端和服务器端该参数配置不一致,它们之间将无法进行通信。2)客户端简单访问控制客户端简单访问控制并不能阻止黑客攻击,只是一种很方便的通过设置用户权限来进行访问控制的方法,可防止误操作。在每台服务器的hbase-site.xml配置文件中设置hbase.security.authentication为simple,以及hbase.security.authorization、hbase.coprocessor.master.classes、hbase.coprocessor.region.classes、hbase.coprocessor.regionserver.classes等参数。配置修改之后关闭整个HBase集群再重新启动让其生效。客户端hbase-site.xml中也将hbase.security.authentication设置为simple。2.数据访问权限控制HBase中的数据访问权限分为以下5种彼此独立的级别:Read(R):读权限,可以读取指定范围内的数据。Write(W):写权限,可以在指定范围内写数据。Execute(X):执行权限,可以在指定范围内执行HBase协处理器终端程序。Create(C):创建权限,可以在指定范围内创建、删除表。Admin(A):管理权限,可以在指定范围内执行分配HRegion、平衡负载等集群操作。权限的作用范围包含如下几种:超级用户:可以对任意对象执行所有操作。全局:允许在集群的所有表上执行操作。命名空间:允许在指定命名空间的所有表上执行操作。表:允许在指定表的数据或元数据上执行操作。列族:允许在指定列族的单元上执行操作。列:允许在指定列的单元上执行操作。各种权限级别和作用范围组合在一起可以实现非常细粒度的权限控制。在HBaseShell中可以通过grant命令来进行授权,其语法格式如下:grant<user>,<permissions>[,<@namespace>|<table>[,<columnfamily>[,<columnqualifier>]]]权限回收命令revoke格式和grant命令类似,只是少了第二个表示权限级别的参数,含义是回收该用户在指定范围内的所有权限。注意revoke命令的作用范围参数必须和grant命令一致才能成功回收权限,否则不论给出的作用范围是更大还是更小都不会回收权限。
作者:云创智学 来源:云创智学 发布时间:2022-02-23 10:11:13
HBase模式设计是需要注意的问题
HBase模式设计是需要注意的问题:1.设计准则1)行键设计读访问模式:通过行键索引提升查询效率。HBase中唯一可用的索引只有行键索引,需要对行键精心设计来尽可能地优化数据查询。某项数据放在行键中会得到更好的查询性能,但是行键的长度变长,行键索引会占用更多的内存资源,由于行键在每个列族中保存,也会需要更多的磁盘空间。写访问模式:避免同一时间段里写入的数据形成热点。随机前缀:在原先彼此相邻的行键前面加上一个随机生成的前缀。哈希前缀:针对随机前缀生成的行键具有不确定性的缺陷,哈希前缀做了改进,通过对原行键调用选定的哈希函数生成前缀。反转键:将原先彼此相邻的行键按字节序反转生成新的行键。以上几种策略都会失去数据按特定行键顺序存放的特性,在进行范围查询时需要访问全部索引数据且需要有更多的磁盘IO操作,对性能影响很大。最理想的行键设计方法是既能让有关联的数据集中在一起存放,又能达到写负载均衡的目的。写访问模式:避免同一时间段里写入的数据形成热点。随机前缀:在原先彼此相邻的行键前面加上一个随机生成的前缀。哈希前缀:针对随机前缀生成的行键具有不确定性的缺陷,哈希前缀做了改进,通过对原行键调用选定的哈希函数生成前缀。反转键:将原先彼此相邻的行键按字节序反转生成新的行键。以上几种策略都会失去数据按特定行键顺序存放的特性,在进行范围查询时需要访问全部索引数据且需要有更多的磁盘IO操作,对性能影响很大。最理想的行键设计方法是既能让有关联的数据集中在一起存放,又能达到写负载均衡的目的。2)列族划分每张表的列族数能少则少,尽量不超过三个。将有相同访问模式的所有数据存储在同一列族,不同访问模式的数据存储在不同列族,并在列族属性中定义好访问模式。如果某些列数据经常被一起访问而不需要访问其他列的数据,可考虑将这些列划分为一个列族。列族和列的名字应尽量短,建议列族名用一个字母表示,列修饰符用少数几个字母表示。为了提高读性能,可进行反规范化设计,即在多张表中储存冗余数据。冗余设计会对写性能有影响,也会加大应用程序的复杂度。HBase不支持跨行事务,所以在列族设计时要避免一个事务涉及多行数据。3)数据量估算和控制每个单元的大小最好不超过100K,如果超过100K应考虑使用MOB(Medium-sizedObjects)文件存储,如果超过50M则应考虑将数据保存在HDFS文件中,在HBase中仅保存文件的访问路径。每个HRegion的大小最好在10G到50G之间。每张表的HRegion数量不超过100个为宜。在创建表的时候预估数据量,据此预分配足够数量的HRegion,从而避免或减少日后对HRegion的拆分。对于不需要长期保存的数据,设置合理的数据过期时间。版本数量尽可能设置得小一些或使用默认值1。如果表中储存的是基于时间的设备数据或日志信息,可将行键设计为设备ID/服务ID加上时间。4)内存需求估算和配置内存需求。集群中所有MemStore合计所需的最大内存通过下列公式估算:MemStore大小*HRegion数量*每个HRegion中平均列族数内存供给。集群参数hbase.regionserver.global.memstore.size配置了每个HRegionServer允许的所有MemStore合计大小上限,该配置值乘以HRegionServer数量即为整个集群的内存供给。如果因为HRegion数量过大造成MemStore内存需求远大于实际内存供给,则会导致系统频繁地进行MemStore存盘操作而影响性能。2.列族属性BLOOMFILTER:定义布隆过滤器类型,默认为ROW。NONE:表示不使用布隆过滤。ROW:表示使用基于行的布隆过滤。ROWCOL:表示使用基于行和列的布隆过滤。COMPRESSION:是否以压缩方式在磁盘上存储列族数据及压缩编码格式,默认值为NONE。NONE:表示不压缩。GZ:表示采用GZ压缩算法。LZ4:表示采用LZ4压缩算法,该算法在Hadoop库中提供。LZO:表示采用LZO压缩算法,该算法库需由用户自行安装。SNAPPY:表示采用SNAPPY压缩算法,该算法库需由用户自行安装。DATA_BLOCK_ENCODING:定义数据块编码格式,默认值为NONE。NONE:表示不使用压缩编码格式。PREFIX:表示使用前缀编码格式。DIFF:表示使用差异编码格式。FAST_DIFF:表示使用快速差异编码格式。PREFIX_TREE:表示采用前缀树编码格式。VERSIONS:定义列族单元保存的数据版本数量,默认值为1。MIN_VERSIONS:定义列族存储的最少版本数,默认值为0。TTL:定义数据的生存时间,以秒为单位,默认值为FOREVER,表示永远不过期。KEEP_DELETED_CELLS:定义在主压缩时是否清除带有删除标志的数据以及在查询时是否返回带有删除标志的数据,默认值为false。BLOCKSIZE:定义HFile数据块的大小,默认值为64K。BLOCKCACHE:定义是否在内存中缓存数据块,默认值为true。IN_MEMORY:定义列族是否优先放入块缓存中,默认值为false。REPLICATION_SCOPE:定义列族是否在其他HBase集群中复制以及复制份数,默认值为0,表示不在其他集群中复制。3.表属性SPLITS、SPLITS_FILE、NUMREGIONS、SPLITALGO:对表进行预拆分,有如下预拆分方法:提供拆分点数组,对应的表属性为SPLITS。将拆分点保存在文本文件中,对应的表属性为SPLITS_FILE。通过给出HRegion数量和拆分算法来自动计算出拆分点,对应的表属性分别是NUMREGIONS和SPLITALGO。READONLY:定义只读表。DURABILITY:定义WAL日志的持久化策略,默认值为USE_DEFAULT。SYNC_WAL:表示采用同步方式写WAL日志。ASYNC_WAL:表示采用异步方式写WAL日志。FSYNC_WAL:表示采用同步方式写WAL日志,并且强制将WAL刷新到磁盘上。SKIP_WAL:表示不写入WAL日志。USE_DEFAULT:表示使用HBase的全局默认值SYNC_WAL。MAX_FILESIZE:定义该表的每个HRegion中所有HFile合计大小上限,默认值为集群配置项hbase.hregion.max.filesize的配置值。MEMSTORE_FLUSHSIZE:定义表的MemStore大小上限,默认值为集群配置项hbase.hregion.memstore.flush.size的配置值。4.设计实例电商平台应用需要解决的问题有以下几类:统计每类商品或每款商品的销售情况。查询每类商品或每款商品的购买客户列表,以便对购买人群进行特征分析。查询某个客户购买的商品列表,以便分析其个人喜好。根据应用需求设计出以下四张表:customer:客户表,只有一个列族c,GZ方式压缩存储,PREFIX编码格式。goods:商品表,只有一个列族g,GZ方式压缩存储,PREFIX编码格式,IN_MEMROY属性为true,VERSIONS属性为10。预拆分成10个HRegion。order:订单表,有两个列族o和c,其中列族o保存订单信息,列族c保存对购买人群进行特征分析所需的客户信息。订单表采取了和商品表同样的拆分方法预拆分为10个HRegion。customer_order:客户购买记录表,以客户ID+商品ID+订单时间戳为行键,专门供分析个体客户的个人喜好使用,只有一个列族g保存分析客户喜好所需的那部分信息。
作者:云创智学 来源:云创智学 发布时间:2022-02-23 10:07:19
HBase配置文件详解
HBase配置文件详解:1、HBase配置文件hbase-site.xml:HBase最主要的配置文件。hbase-env.sh:设置HBase运行所需的工作环境。backup-masters:列出哪些服务器应启动备用HMaster进程。regionservers:列出了哪些服务器启动HRegionServer进程。hbase-policy.xml:PRC服务器对客户端请求进行权限验证时使用的策略配置文件,仅当启用HBase安全管理时才使用。log4j.properties:HBase所使用的日志模块log4j的配置文件。hadoop-metrics2-hbase.properties:该配置文件将HBase集群与Hadoop的Metrics2框架相关联,可用于实时收集HBase集群的各类监控信息。上述7个HBase配置文件的路径和内容在每个节点上都必须一致。2、主要配置项hbase.cluster.distributed:是否为分布式运行模式,默认值为false。hbase.tmp.dir:HBase节点在本地文件系统中的临时目录,默认值为${java.io.tmpdir}/hbase-${user.name}。hbase.rootdir:HBase所保存文件的根目录,默认值为${hbase.tmp.dir}/hbase。hbase.fs.tmp.dir:HBase集群在HDFS文件系统中保存临时数据的中转目录,默认值为/user/${user.name}/hbase-staging。hbase.local.dir:HBase节点在本地文件系统中用于本地存储的目录,默认值为${hbase.tmp.dir}/local。hbase.zookeeper.quorum:哪些服务器上运行ZooKeeper进程,默认值为localhost。hbase.zookeeper.property.dataDir:ZooKeeper用于保存数据的目录,默认值为${hbase.tmp.dir}/zookeeper。hbase.zookeeper.property.maxClientCnxns:每个ZooKeeper服务器允许接受的客户端并发连接数量,默认值为300。zookeeper.session.timeout:ZooKeeper会话的超时时间,单位是毫秒,默认值是90000。hbase.master.port:HMaster进程绑定的端口号,默认值为16000。hbase.master.info.port:HBaseMaster的Web页面的端口号,默认值为16010。hbase.master.wait.on.regionservers.mintostart:HBase集群启动时HMaster在有多少个HRegionServer启动后开始分配任务,默认值为1。hbase.regionserver.port:HRegionServer进程绑定的端口号,默认值为16020。hbase.regionserver.info.port:HRegionServer的Web页面的端口号,默认值为16030。hbase.regionserver.handler.count:每台HRegionServer和HMaster上用于侦听响应客户端请求的线程数量,默认值为30。hbase.ipc.server.callqueue.handler.factor:每台HRegionServer和HMaster上对应于处理线程数的调用等待队列数量因子,范围在0到1之间,默认值为0.1,表示每10个处理线程共享一个调用等待队列。hbase.hregion.max.filesize:一个HRegion中所有Hfile文件合计大小上限,默认值为10737418240,即10G。hbase.hregion.majorcompaction:HRegion数据自动进行周期性主压缩的间隔时间,单位是毫秒,默认值为604800000,即7天。hbase.hregion.majorcompaction.jitter:随机执行周期性主压缩操作的前后时间范围,默认值为0.5。hbase.hregion.memstore.flush.size:Store中的MemStore达到多大时会存入磁盘生成StoreFile,默认值为134217728,即128M。hbase.regionserver.global.memstore.size:HRegionServer中所有MemStore合计大小的上限,按照堆内存的百分比计算,默认值为0.4,即上限为堆内存的40%。hfile.block.cache.size:最多使用堆内存的百分之多少作为StoreFile的块缓存,默认值为0.4,即上限为堆内存的40%。hbase.balancer.period:HMaster运行HRegion均衡器的周期,单位是毫秒,默认值为300000。hbase.client.write.buffer:HBase服务器端和客户端写入数据库缓冲区的大小,默认值为2097152,即2M。hbase.security.authentication:是否启用HBase客户端安全认证,默认值为simple,表示不进行安全认证。3、配置建议1)hbase-site.xml必须配置以下参数:hbase.cluster.distributedhbase.tmp.dirhbase.rootdirhbase.zookeeper.quorum建议配置以下参数:hbase.zookeeper.property.dataDirhbase.master.wait.on.regionservers.mintostarthbase.regionserver.handler.counthbase.hregion.majorcompactionhbase.hregion.majorcompaction.jitterhbase.regionserver.global.memstore.sizehfile.block.cache.sizehbase.client.write.buffer2)hbase-env.sh示例如下:#Thejavaimplementationtouse.Java1.7+required.exportJAVA_HOME=/etc/alternatives/jre_1.7.0_openjdk#Themaximumamountofheaptouse.DefaultislefttoJVMdefault.exportHBASE_HEAPSIZE=8G#TellHBasewhetheritshouldmanageit'sowninstanceofZookeeperornot.exportHBASE_MANAGES_ZK=false4、客户端配置在客户端解压HBase安装包并将解压后的lib/子目录和conf/子目录加入到客户端的CLASSPATH环境变量中;客户端的配置比较简单,只需要在conf/hbase-site.xml配置文件中设置好参数hbase.zookeeper.quorum即可,示例如下:<?xmlversion="1.0"?><?xml-stylesheettype="text/xsl"href="configuration.xsl"?><configuration><property><name>hbase.zookeeper.quorum</name><value>master,slave2,slave3</value></property></configuration>hbase.zookeeper.quorum配置值中不能包含空格。
作者:云创智学 来源:云创智学 发布时间:2022-02-23 10:01:39
HBase的主要特性
HBase的主要特性:1、可伸缩性2、强读写一致性3、自动分片4、HRegionServer自动故障切换5、Hadoop/HDFS集成6、MapReduce集成7、提供Java客户端API8、提供Thrift/RESTAPI9、块缓存和布隆过滤(BloomFilters)10、提供内置的Web操作管理页面
作者:云创智学 来源:云创智学 发布时间:2022-02-22 10:42:29
HBase数据模型简介
HBase数据模型简介:1、基本术语表(Table):HBase中的表由若干行组成。行(Row):HBase中表的一行由一个行键和若干个列名到值的映射组成。列(Column):HBase中的每一列都属于某一列族,列名称由<列族名>:<列修饰符>组成。列族(ColumnFamily):HBase表在存储上是按列族存储的,将一张表同一列族下的所有列及其值存储在一起以便达到更好的性能。列修饰符(ColumnQualifier):列修饰符加在列族名的后面用于表示某一列。单元(Cell):HBase中通过行键、列族、列修饰符的组合定位到一个单元,每个单元保存着多个版本的数据,即多个带有时间戳的值,时间戳代表了值的版本。时间戳(Timestamp):HBase中保存的每个值都带有一个时间戳,以时间戳作为值的版本标识。2、概念视图示例3、物理视图示例
作者:云创智学 来源:云创智学 发布时间:2022-02-22 10:40:57
HBase体系架构概述
HBase体系架构概述:1、HMaster集群的管理者HMaster失效短时间内HBase集群仍可继续工作最多可配置10个HMaster2、HRegionServerHBase在存储表数据时自动按行键(rowkey)将表分成很多块进行存储,每一块称为一个HRegion。HRegionServer负责管理本服务器上的HRegions、处理对HRegion的I/O请求。HRegion是HBase表数据存储分配的最小单位,会自动进行拆分与合并。3、ClientClient端有访问HBase的接口,并通过缓存来加快对HBase的访问。4、ZooKeeperZooKeepe主要用于解决分布式应用中经常遇到的统一命名服务、状态同步服务、集群管理、配置项管理等问题。5、元数据所有的HRegionID及其映射信息组成了HRegions元数据。用户表的HRegions元数据被存储在.META.表中。
作者:云创智学 来源:云创智学 发布时间:2022-02-22 10:38:09
hadoop常用命令汇总
hadoop常用命令汇总:1.用户命令$bin/hadoop显示帮助$bin/hadoopfs文件操作$bin/hadoopjar运行MapReduce程序$bin/hadoopversion查看Hadoop版本$bin/hadoopchecknative检查Hadoop的本地库-catpath/file输出文本文件的内容-appendToFile本地文件集群文件将本地文件的内容追加到集群文件结尾-copyFromLocal本地文件集群文件将本地文件复制到集群-copyToLocal集群文件本地文件将集群文件复制到本地-cp集群原文件集群目标文件复制集群文件-mv集群原文件集群目标文件移动或重命名文个-ls路径列出集群文件或者目录-mkdir路径在集群中创建目录-setrep[参数][副本数][路径]设置文件副本数2.管理命令功能:动态调整日志级别$bin/hadoopdaemonlog-getlevel<host:httpport><classname>$bin/hadoopdaemonlog-setlevel<host:httpport><classname><level>DEBUG<INFO<WARN<ERROR<FATALhttp://<hostname>:50070/logLevel3.启动关闭命令$sbin/start-all.sh$sbin/stop-all.sh启动集群所有服务/关闭集群所有服务$sbin/start-dfs.sh$sbin/stop-dfs.sh启动dfs;关闭dfs$sbin/start-yarn.sh$sbin/stop-yarn.sh启动YARN;关闭YARN$sbin/hadoop-daemon.sh[start|stop]服务名单个Hadoop服务启动或者关闭$sbin/hadoop-daemons.sh[start|stop]服务名全部slaves上的Hadoop服务启动或者关闭$sbin/yarn-daemon.sh[start|stop]服务名单个yarn服务的启动或者关闭$sbin/yarn-daemons.sh[start|stop]服务名全部slaves上的yarn服务启动或者关闭$bin/hdfssecondarynamenode以控制台的方式启动SecondaryNameNode$bin/hdfsnamenode以控制台的方式启动NameNode$bin/hdfsdatanode以控制台的方式启动DataNode
作者:云创智学 来源:云创智学 发布时间:2022-02-22 10:33:36
hadoop部署模式安装步骤流程
hadoop部署模式安装步骤流程:一、单节点部署基础知识:熟悉虚拟机(virtualbox/vmware)熟悉Linux基本命令(下载文件,使用vi/vim编辑文件,创建文件和创建目录)准备工作:在虚拟机中安装好Linux(centos7)使用桥接模式配好网络安装步骤:1、在虚拟机中安装Centos72、安装ssh3、安装rsync。4、安装openJDK5、确认jdk版本6、下载Hadoop的安装包7、解压Hadoop8、在Hadoop的配置文件(etc/hadoop/hadoop-env.sh)中增加环境变量JAVA_HOME9、验证配置10、运行MapReduce任务二、伪分布式部署安装步骤:1、SSH免密码登录安装ssh1)产生公钥和私钥2)将公钥放到目标机器的~/.ssh/authorized_keys中3)验证2、修改配置文件core-site.xml、hdfs-site.xml3、格式化NameNode4、启动NameNode和DataNode的守护进程5、通过web检查dfs状态6、验证dfs是否正常工作7、配置YARN三、集群部署1、准备工作1)准备6台Linux服务器2)分别配置6台机器的名字为m1~m6,并指定静态IP地址3)所有机器配置本地机器名解析4)所有机器之间配置ssh免密码登录5)关闭防火墙6)下载Hadoop安装包,并解压到适当的位置7)所有机器上使用相同版本的jdk和Hadoop版本,并且保证Hadoop的目录在相同的位置2、准备工作的验证1)验证本地机器名解析正常2)验证ssh免密码配置成功3)在每台机器上运行java-version检查jdk版本4)在每台机器上检查防火墙状态3、配置Hadoop参数1)配置etc/hadoop/hadoop-env.sh2)配置core-site.xml3)配置etc/hadoop/hdfs-site.xml4)配置etc/hadoop/mapred-site.xml5)配置etc/hadoop/yarn-site.xml6)配置etc/hadoop/slaves7)分发配置文件。4、启动集群1)格式化NameNode2)启动NameNode3)启动DataNode4)启动全部dfs进程5)启动ResourceManager6)启动NodeManager7)启动JobHistoryServer8)用浏览器检查web接口工作是否正常9)关闭集群
作者:云创智学 来源:云创智学 发布时间:2022-02-22 10:18:35
YARN结构
YARN结构:ResourceManager(RM)负责对各NM上的资源进行统一管理和调度。将AM分配空闲的Container运行并监控其运行状态。对AM申请的资源请求分配相应的空闲Container。NodeManager(NM)NM是每个节点上的资源和任务管理器。它会定时地向RM汇报本节点上的资源使用情况和各个Container的运行状态;同时会接收并处理来自AM的Container启动/停止等请求。ApplicationMaster(AM)应用框架,它负责向ResourceManager协调资源,并且与NodeManager协同工作完成Task的执行和监控ContainerContainer是YARN中的资源抽象,它封装了某个节点上的多维度资源,如内存、CPU、磁盘、网络等,当AM向RM申请资源时,RM为AM返回的资源便是用Container表示的。
作者:云创智学 来源:云创智学 发布时间:2022-02-21 10:34:16
联系方式
企业微信