Hadoop可以用来做什么?

xiaoxiao2021-02-28  15

在数据为王的时代,数据挖掘能力已经成为衡量企业竞争力的重要指标之一。如何利用好通用大数据平台Hadoop,如何选择一款合适企业业务的Hadoop发行版也毫无疑问成为了企业的必备技能。在这个成本高昂的探索过程中,大数据行业内各个领域无疑成为了各个机构一个重要的认知和学习途径。

What Is Apache Hadoop? The Apache™ Hadoop® project develops open-source software for reliable, scalable, distributed computing.The Apache Hadoop software library is a framework that allows for the distributed processing of large data sets across clusters of computers using simple programming models. It is designed to scale up from single servers to thousands of machines, each offering local computation and storage. Rather than rely on hardware to deliver high-availability, the library itself is designed to detect and handle failures at the application layer, so delivering a highly-available service on top of a cluster of computers, each of which may be prone to failures.

Hadoop可以解决的问题: 海量数据的存储(HDFS:Hadoop Distributed File System) (HDFS就是Hadoop分布式存储系统) 海量的数据分析(MapReduce) (MapReduce就是分布式计算模型)

Hadoop作者受Google三篇论文的启发(GFS、MapReduce、BigTable)

Hadoop擅长日志分析,Facebook就是用Hive来进行日志分析,2009年时Facebook就有非编程人员的30%的人来使用HiveQLib进行数据Fenix;淘宝搜索中的自定义筛选也使用的Hive;利用Pig还可以做高级的数据处理,包括 Twitter、Linkedln上用于发现您可能认识的人,可以实现类似Amazon.com的协同过滤的推荐效果,淘宝的商品推荐也是!在Yahoo的40%的Hadoop作业还是用pig运行的,包括垃圾邮件的识别和过滤,还有用户特征建模。 2012年8月25日更新的天猫推荐系统使用的是hive,少量使用mahout。但是现在淘宝的推荐系统都是storm来实现实时推荐。

Hadoop的部署方式分为3种: 第一种:本地模式,本地模式可以在使用eclipse调试的时候使用,只起一个Map一个Reduce。

第二种:伪分布式,通过一台机器模拟生产环境进行测试,看能否完成基本逻辑和功能。

第三种:集群模式,是真正的生产环境,有成百上千台的机器。

转载请注明原文地址: https://www.6miu.com/read-1650318.html

最新回复(0)