技术前沿 - 云创智学

YARN升级配置

YARN升级配置：YARN是YetAnotherResourceNegotiator（另一个资源管理器）的缩写，可充当Hadoop堆栈的集群协调组件。该组件负责协调并管理底层资源和调度作业的运行。通过充当集群资源的接口，YARN使得用户能在Hadoop集群中使用比以往的迭代方式运行更多类型的工作负载。由于任务计算都是使用Hive，所以YARN的升级很简单，只是启动yarn就行了。唯一要注意的是，从MapReduce升级到YARN，资源分配方式变化了，所以要根据自己的生产环境修改相关的资源配置。

作者：云创智学

来源：云创智学

发布时间：2022-03-01 09:46:20

HDFS的数据和元数据升级

HDFS的数据和元数据升级：HDFS是一种分布式文件系统层，可对集群节点间的存储和复制进行协调。HDFS确保了无法避免的节点故障发生后数据依然可用，可将其用作数据来源，可用于存储中间态的处理结果，并可存储计算的最终结果。升级HDFS花费的时间不长，就是和启动集群的时间要多2-3倍的时间，升级丢失数据的风险几乎没有。

作者：云创智学

来源：云创智学

发布时间：2022-03-01 09:45:35

Hadoop升级风险

Hadoop升级风险：Hadoop升级最主要是HDFS的升级，HDFS的升级是否成功，才是升级的关键，如果升级出现数据丢失，则其他升级就变的毫无意义。

作者：云创智学

来源：云创智学

发布时间：2022-03-01 09:44:56

大数据系统运维灾备恢复能力要求

大数据系统运维灾备恢复能力要求：一、数据备份系统①完全数据备份至少每天一次；②备份介质场外存放；③远程实时备份，实现数据零丢失。二、备用数据处理系统①备用数据处理系统具备与生产数据处理系统一致的处理能力并完全兼容；②、应用软件是“集群的”，可实时无缝切换；③具备远程集群系统的实时监控和自动切换能力。三、备用网络系统①配备与主系统相同等级的通信线路和网络设备；②备用网络处于运行状态；③最终用户可通过网络同时接入主、备中心。四、备用基础设施①有符合介质存放条件的场地；②有符合备用数据处理系统和备用网络设备运行要求的场地；③有满足关键业务功能恢复运作要求的场地；④以上场地应保持7x24小时运作。五、专业技术支持能力在灾难备份中心7x24小时有专职的：①计算机机房管理人员；②专职数据备份技术支持人员；③专职硬件、网络技术支持人员；④专职操作系统、数据库和应用软件技术支持人员。六、运行维护管理能力①有介质存取、验证和转储管理制度；②按介质特性对备份数据进行定期的有效性验证；③有备用计算机机房运行管理制度；④有硬件和网络运行管理制度；⑤有实时数据备份系统运行管理制度；⑥有操作系统、数据库和应用软件运行管理制度。七、灾难恢复预案有相应的经过完整测试和演练的灾难恢复预案。

作者：云创智学

来源：云创智学

发布时间：2022-03-01 09:33:59

大数据系统运维灾难备份系统分为几个等级

大数据系统运维灾难备份系统分为几个等级：大数据系统运维灾难备份系统可分为6个等级，分别是：第一级每周一次的数据备份，场外存放备份介质。第二级每周一次的数据备份，有备用的基础设施场地。第三级每天一次的数据备份，利用通信网络将关键数据定时批量传送至备用场地。第四级每天一次的数据备份，利用通信网络将关键数据定时批量传送至备用场地，配备灾难恢复所需的全部数据处理设备，并处于就绪状态或运行状态。第五级采用远程数据复制技术，并利用通信网络将关键数据实时复制到备用场地，配备灾难恢复所需的全部数据处理设备，并处于就绪状态或运行状态。第六集远程实时备份，实现数据零丢失，具备远程集群系统的实时监控和自动切换能力。

作者：云创智学

来源：云创智学

发布时间：2022-02-28 10:33:46

大数据系统运维高可用性技术

大数据系统运维高可用性技术：一、系统构架1、机房环境机房环境的高可用主要考虑的是电力和机柜分配的方面。2、网络、主机、存储网络是数据中心的核心，主机是高可用方案的主要部分，主机层面的高可用技术分为主从模式、双机模式和集群模式。3、数据库在数据库领域，有一些经典的高可用技术，不同产品的原理和实现上都略有区别。4、应用在实现某个特定功能点时，应用程序可以通过多个实例完成该功能的服务。二、容灾一般情况下，谈到高可用技术时，讨论的范围都是在数据中心内部的各种保障技术，但当数据中心整体发生故障，或者称之为灾难时，就需要依靠容灾技术，在6.3的业务连续性管理中，会有详细阐述。三、监控指标项应用自身状态：服务进程状况、服务状态、业务开关或可使用标志状态。数据服务：数据及时、数据关键路径、数据完整性和正确性关键表记录变化情况、关键业务数据、关键数据按预期清空。性能容量：用户数量（终端/API)，内存加载量、消息并发量、事务响应时间。批量作业：批量处理情况、批量开始时间、批量结束时间、批量加载时间、批处理状态。应用占用系统资源：文件句柄数、应用分区空间、应用文件增长情况、网络连接、单个用户或请求进程占用的系统资源。应用中间件（Weblogic、Tomcat）：WeblogicServer、线程池、JVM、数据源、连接池、APP状态。MQ：队列管理器、通道、队列、事件、（Event）。WEB服务器（例如Apache）：Apache吞吐率、Apache并发连接数、httpd进程数、httpd线程数目、提供网站服务的字节数、处理连接的耗时时间。四、故障转移主机/存储/网络/数据库一般都是心跳包机制来进行健康状态的监控。由管理模块向各个模块之间按照一定时间间隔发送心跳包，或者两个模块之间互相发送心跳包，如果超过设定时间周期，某个模块没有响应，则判断该模块出现故障，备份模块接管该模块的服务，这个过程被称为故障转移（Failover）。在主备机的高可用系统中，在特殊情况下会发生脑裂（split-brain）的故障。发生这种故障的原因是心跳线或者网络出现问题，造成主备机互相探测不到对方的心跳，都以为对方发生了故障，于是便主动获取存储或者服务IP等资源，双方都启动服务，造成服务异常。为了解决脑裂问题，一般会在主备机之外，引入一个第三方模块，作为仲裁者，由它来判断到底是谁应该接管资源，对外提供服务。

作者：云创智学

来源：云创智学

发布时间：2022-02-28 10:31:08

大数据系统运维高可用性概述

大数据系统运维高可用性概述：衡量系统运行稳定性的关键指标是系统的可用性，可用性（availability）指的是系统的无故障运行时间的百分比，计算公式为：无故障运行时间/计划对外服务时间*100%。为了保证系统有较高的可用性，会采取一些高可用（HighAvailability，简称HA）技术来减少故障中断时间。高可用技术的核心思想是冗余，即关键部件要不止一个，在原部件故障或者维修的的时候，备用的零部件要能顶替原有部件的作用。当发生大规模故障时，如机房整体电力故障，对外网络被物理切断，在一定区域内的部件冗余也失效，此时就需要考虑容灾相关的方案。通过在其他物理区域的数据中心建立备份系统。

作者：云创智学

来源：云创智学

发布时间：2022-02-28 10:27:42

SaltStack介绍与实践

SaltStack介绍与实践：SaltStack管理工具允许管理员对多个操作系统创建一个一致的管理系统，包括VMwarevSphere环境。作用于仆从和主拓扑。SaltStack与特定的命令结合使用可以在一个或多个下属执行。实现这一点，此时SaltMaster可以发出命令，如salt'*'cmd.run'ls-l/'。-l/'。

作者：云创智学

来源：云创智学

发布时间：2022-02-28 10:20:52

Ansible介绍与实践

Ansible介绍与实践：Ansible是一个IT自动化工具。它可以配置系统，开发软件，或者编排高级的IT任务，例如持续开发或者零宕机滚动更新。主要目标是简单易用。它也同样专注安全性和可靠性，最小化的移动部件，使用Openssh传输(有加速socket模式和同样可用拉取模式)，易于人类阅读的语言，使不熟悉编程的人也可以看得懂。适用于管理所有类型的环境，从随手可安装的实例，到企业级别的成千上万个实例都可行。

作者：云创智学

来源：云创智学

发布时间：2022-02-28 10:20:01

配置管理工具Chef介绍与实践

配置管理工具Chef介绍与实践：Chef是一个全新的开源应用，包括系统集成、配置管理和预配置等功能，由来自华盛顿西雅图的Opscode基于Apache2.0许可证发布。Chef通过定义系统节点、食谱（cookbook）和程序库来进行工作，食谱用于表达管理任务，而程序库则用于定义和其他比如应用程序、数据库或者像LDAP目录一类的系统管理资源等工具之间的交互。

作者：云创智学

来源：云创智学

发布时间：2022-02-25 10:13:46

关于云创

联系我们