H2O学习笔记（八）——Sparkling Water

xiaoxiao2021-02-28 175

sparkling water将h2o和 Spark 相结合，在spark平台上运行h2o服务。提供了 Scala , Python ,R的接口，下面是spark water的一个整体架构图。

安装

这里只简单介绍下PySparkling的安装首先安装Hadoop和Spark,没有问题了再安装Sparkling Water。 PySparkling支持的一些版本

h2o_pysparkling_1.6 - for Spark 1.6.x h2o_pysparkling_1.5 - for Spark 1.5.x h2o_pysparkling_1.4 - for Spark 1.4.x 123 123

这里我使用了Spark1.60的版本。 1、pip安装一些包

pip install h2o_pysparkling_1.6 pip install requests pip install tabulate pip install six pip install future 12345 12345

注：在worker节点上也要安装这些环境，否则会报错。

2、配置环境

export SPARK_HOME="/path/to/spark/installation" export MASTER='local[*]' 12 12

3、运行测试在spark water文件夹下运行shell启动

bin/pysparkling --conf spark.executor.memory=2G 1 1

也可以通过ipython和notebook启动

PYSPARK_DRIVER_PYTHON="ipython" PYSPARK_DRIVER_PYTHON_OPTS="notebook" bin/pysparkling 1 1

启动成功可以在http://master:4040查看pysparkling的状态

测试：

from pysparkling import * import h2o hc = H2OContext.getOrCreate(sc) 123 123

Demo

1、sparkcontext 初始化的demo

from pysparkling import * from pyspark import SparkContext from pyspark.sql import SQLContext import h2o # initiate SparkContext sc = SparkContext("local", "App Name", pyFiles=[]) # initiate SQLContext sqlContext = SQLContext(sc) # initiate H2OContext hc = H2OContext.getOrCreate(sc) # stop H2O and Spark services h2o.shutdown(prompt=False) sc.stop() 12345678910111213141516 12345678910111213141516

2、芝加哥犯罪数据其中用了SparkSQL来查询数据，最后用GBM和DL模型来训练数据数据集可以从这儿下载

demo

出现的问题

1、spark执行任务时出现Java.lang.OutOfMemoryError: GC overhead limit exceeded和java.lang.OutOfMemoryError: Java heap space Sun 官方对此的定义是：“并行/并发回收器在GC回收时间过长时会抛出OutOfMemroyError。”过长的定义是，超过98%的时间用来做GC并且回收了不到2%的堆内存。用来避免内存过小造成应用不能正常工作。解决方法：在spark-env.sh中将下面两个参数调大，提高机器可用的堆空间。

export SPARK_EXECUTOR_MEMORY=2000M export SPARK_DRIVER_MEMORY=2000M 12 12

另一种可能的原因是executor core数量太多，导致了多个core之间争夺gc时间以及资源（应该主要是内存资源），最后导致大部分的时间都花在了gc上，可以减少core的数量直到到1

SPARK_EXECUTOR_CORES=1 1 1

2、在启动和运行时会出现各种问题，大部分都是虚拟机内存分配不够，虚拟机内存最好分配3G以上，不然会出现各种奇葩的错误。

转载请注明原文地址: https://www.6miu.com/read-23804.html

技术

最新回复(0)