Hive开发经验总结

xiaoxiao2021-02-28 137

1. 了解Hive的基本概念

对Hive基本概念的了解，有助于对移动开发平台的理解与掌握，便于项目开展。尤其是其与普通关系型数据库的区别。

2. 数据倾斜（Data skew）

概念：简单理解就是数据分布不均匀。有这么一种说法：正常的数据分布理论上都是倾斜的，就是我们所说的20-80原理：80%的财富集中在20%的人手中, 80%的用户只使用20%的功能 , 20%的用户贡献了80%的访问量。产生场景：group by和 join 解决方法： a) 调整reduce内存值 b) 指定key值（distribute by、cluster by） c) 将reduce阶段的join操作调整到map阶段

3. 小技巧

 建立中间表有些程序的逻辑较为复杂，可通过分析拆解为多个中间表的形式。建立中间表的好处主要有两点： a) 降低单个程序的复杂度，提供运行成功率； b) 数据可溯源，易于后期扩展。

 建立临时表在一个程序内建立临时表类似于视图的功能，保存中间结果用于计算，提高运行效率。

 数据规范化项目中使用到的数据来自不同部门，由不同的人生产，容易出现很多格式上不一致的问题。 a) null值处理 null值用于运算的结果始终为null，程序中可使用 nvl(字段名,默认值) 进行处理，以防出错。 b) 空白符处理数据表中某些字段使用空格补全，如经常出现product_no字段，用户手机号前后存在空格，导致匹配失败。可使用trim()函数处理 c) 注意分隔符因为hive是“读模式”，一定要注意表的分隔符，如app名称字段“生活|美团”，如果再使用“|”作为表分隔符则会出错。

 极大表与极小表关联问题将join操作调整到map阶段执行，避免产生笛卡尔积，提升运行效率 select /+mapjoin( tab_small )/ from tab_small join tab_huge on …

转载请注明原文地址: https://www.6miu.com/read-20981.html

技术

最新回复(0)