spark学习-28-Spark数据倾斜问题

xiaoxiao2021-02-28 88

推荐：先看看这个

####spark学习-27-Spark性能调优(2) http://blog.csdn.net/qq_21383435/article/details/77720087

##目的

继基础篇分析了开发调优与资源调优之后，本文作为拓展篇，将深入分析数据倾斜调优与shuffle调优，以解决更加棘手的性能问题。

##数据倾斜调优

##简述

有时候，大家可能会遇到大数据开发过程中一个比较棘手的问题，那就是数据倾斜，此时Spark作业的性能会比预期差很多，数据倾斜调优，就是使用各种技术方案解决不同类型的数据倾斜问题，以保证Spark作业的性能。

##数据倾斜发生时的现象

绝大多数task执行得都非常快，但个别task执行极慢。比如，总共有1000个task，997个task都在1分钟之内执行完了，但是剩余两三个task却要一两个小时。这种情况很常见。

原本能够正常执行的Spark作业，某天突然报出OOM（内存溢出）异常，观察异常栈，是我们写的业务代码造成的。这种情况比较少见。

##数据倾斜发生的原理

数据倾斜的原理很简单：在进行shuffle的时候，必须将各个节点上相同的key拉取到某个节

转载请注明原文地址: https://www.6miu.com/read-78013.html

最新回复(0)