对Hive基本概念的了解,有助于对移动开发平台的理解与掌握,便于项目开展。尤其是其与普通关系型数据库的区别。
概念:简单理解就是数据分布不均匀。有这么一种说法:正常的数据分布理论上都是倾斜的,就是我们所说的20-80原理:80%的财富集中在20%的人手中, 80%的用户只使用20%的功能 , 20%的用户贡献了80%的访问量。 产生场景:group by和 join 解决方法: a) 调整reduce内存值 b) 指定key值(distribute by、cluster by) c) 将reduce阶段的join操作调整到map阶段
建立中间表 有些程序的逻辑较为复杂,可通过分析拆解为多个中间表的形式。 建立中间表的好处主要有两点: a) 降低单个程序的复杂度,提供运行成功率; b) 数据可溯源,易于后期扩展。
建立临时表 在一个程序内建立临时表类似于视图的功能,保存中间结果用于计算,提高运行效率。
数据规范化 项目中使用到的数据来自不同部门,由不同的人生产,容易出现很多格式上不一致的问题。 a) null值处理 null值用于运算的结果始终为null,程序中可使用 nvl(字段名,默认值) 进行处理,以防出错。 b) 空白符处理 数据表中某些字段使用空格补全,如经常出现product_no字段,用户手机号前后存在空格,导致匹配失败。可使用trim()函数处理 c) 注意分隔符 因为hive是“读模式”,一定要注意表的分隔符,如app名称字段“生活|美团”,如果再使用“|”作为表分隔符则会出错。
极大表与极小表关联问题 将join操作调整到map阶段执行,避免产生笛卡尔积,提升运行效率 select /+mapjoin( tab_small )/ from tab_small join tab_huge on …