第142课:Spark面试经典系列之Cache和Checkpoint

xiaoxiao2021-02-28  76

Spark面试经典系列之Cache和Checkpoint

1、Cache 2、Checkpoint

Cache:当我们想复用数据的时候一般都会进行Cache,在实际生产环境下复用RDD是最重要的性能优化手段之一(当然,如果能够实现优良的RDD的复用,一定是建立在同时驾驭业务和技术的基础之上的)。所谓的Cache其实是把数据经过第一次计算放在了BlockManager中。

Checkpoint:相当于Cache的备胎,Checkpoint的数据会放在容错的文件系统中,进行Checkpoint的RDD一般都会首先进行Cache来避免数据的重复计算

转载请注明原文地址: https://www.6miu.com/read-33117.html

最新回复(0)