本向导是为了更加方便的使用文档,加强对Husky的总体了解,达到快速熟悉并利用其来进行各类分布式计算的目的。
Husky项目旨在建立一个更具有表达能力和更高效的分布式数据分析系统,为世界提供一个更方便高效的大规模运算模式。
Husky设计并实现了一个高度优化的执行引擎,以求在有限计算资源之上取得更好的性能。
Husky的计算模型支持快速并高效地实现各类算法。
Husky支持广泛的应用,其中包括MapReduce的ETL,文本数据挖掘,图数据分析,同步和异步的机器学习。
Husky具有良好的兼容性,支持连接不同的系统并能很好地与Hadoop生态系统共同协作。
Husky实现了各类简易的编程接口,有效地降低应用的开发复杂度,从而缩短开发周期。
Husky的Python和Scala前端支持现有的各类存储系统,并提供高级的编程接口,方便各类数据科学家们简单快速地使用Husky。
首先需要将Husky部署到你的集群之上,可参照 Husky中文文档-部署。
Husky中文文档-部署Husky是基于C++所编写,其提供相对友好而且高度优化的C++APIs。拥有这些C++ APIs,你就可以开发出各类高效的分布式运用,包括各种机器学习和图形分析等等。下面便是为开发者提供的开启C++ APIs美好世界的钥匙:
基础Aggregator 指南Combiner 指南Broadcast 和 Request 指南例子PyHusky提供高级的Python前端,方便数据科学家使用极少的代码进行数据分析。PyHusky在提供简易编程接口的同时,由C++的执行引擎保证高效的性能。
快速开始PyHusky 运算符架构