Hive入门简介

xiaoxiao2021-02-28 54

简介

hive [haiv]

Hive 是一个基于 Hadoop 文件系统之上的数据仓库架构。

1.为数据仓库的管理提供功能：

数据 ETL （抽取、转换和加载）工具数据存储管理大型数据集的查询和分析能力2.定义了类 SQL的语言 —— Hive QL，可以将结构化的数据文件映射为一张数据库表

3.方便使用 Mapper 和 Reducer 操作，可以将 SQL 语句转换为 MapReduce 任务运行

Hive 与关系数据库的区别

1.使用的文件系统：

Hive： Hadoop 的HDFS（Hadoop的分布式文件系统）关系数据库：服务器本地的文件系统

2.计算模型：

Hive： MapReduce关系数据库：自己设计的计算模型

3.实时性：

Hive：为数据挖掘设计，实时性很差关系数据库：为实时查询业务设计，实时性强

4.扩展能力：

Hive：易扩展存储能力、计算能力关系数据库：扩展性差

使用场景

Hive 并非为联机事务处理而设计，Hive 并不提供实时的查询和基于行级的数据更新操作。Hive 的最佳使用场合是大数据集的批处理作业，例如，网络日志分析。

数据存储

Hive 本身没有专门的数据存储格式，不能为数据建立索引只需要在创建表时，告诉 Hive 数据中的列分隔符就可以解析数据了

Hive 中主要包括 4 种数据模型：

表（Table）外部表（External Table）分区（Partition）桶（Bucket）元数据存储 Hive 的元数据可能要面临不断地更新、修改和读取操作，不适合使用 Hadoop 文件系统进行存储目前 Hive 把元数据存储在 RDBMS 中，比如存储在 MySQL, Derby 中来源: 实验楼链接: https://www.shiyanlou.com/courses/38

转载请注明原文地址: https://www.6miu.com/read-2627356.html

技术

最新回复(0)