0
用户访问量
0
注册用户数
0
在线视频观看人次
0
在线实验人次

分布式数据处理MapReduce的容错机制

作者：云创智学|发布时间：2022-05-31 13:29:57.0|来源：云创智学

由于MapReduce在成百上千台机器上处理海量数据，所以容错机制是不可或缺的。

总的来说，MapReduce通过重新执行失效的地方来实现容错。

Master失效

Master会周期性地设置检查点（checkpoint），并导出Master的数据。一旦某个任务失效，系统就从最近的一个检查点恢复并重新执行。

由于只有一个Master在运行，如果Master失效了，则只能终止整个MapReduce程序的运行并重新开始。

Worker失效

Master会周期性地给Worker发送ping命令，如果没有Worker的应答，则Master认为Worker失效，终止对这个Worker的任务调度，把失效Worker的任务调度到其他Worker上重新执行。

友情链接