Spark api介绍一

xiaoxiao2021-02-28 91

http://blog.csdn.net/jewes/article/details/39896301

针对于map和reduce进行了相关的介绍，还比较通俗易懂，做个标记，感谢原文作者

并行集合的一个重要参数是slices，表示数据集切分的份数。Spark将会在集群上为每一份数据起一个任务。典型地，你可以在集群的每个CPU上分布2-4个slices. 一般来说，Spark会尝试根据集群的状况，来自动设定slices的数目。然而，你也可以通过传递给parallelize的第二个参数来进行手动设置。（例如：sc.parallelize(data, 3)).

转载请注明原文地址: https://www.6miu.com/read-84582.html

技术

最新回复(0)