Hive多字段分组取Top N且保留某列不相同记录

xiaoxiao2025-09-05 451

　　一、问题背景

　　1.先吐槽一下中国联通自己的大数据开放能力平台提供的计算集群，Hive用的1.1，Spark用的1.5，Kafka0.8，我的天呐，原始的让人抓狂，好多已经写好的模型都要重写......

　　2.数据格式

　　第一列是device_number，第二列是prod_name，第三列是score，第四列是flag;

　　问题是：

　　对于红色的1区域：我们要都保留，因为flag相同;

　　对于绿色的2区域：我们只保留flag为15的;

　　对于黄色的3区域：我们都保留，因为只有一个app标签;

　　那么问题来了，Hive里的分组是全字段的，如何在分组之后只保留其中一条或固定几条的数据呢?Hive自带三种函数来解决这个问题，先列出来记一下：

　　row_number() ,这个是顺序下来;

　　rank() , 这个在遇到数据相同项时,会留下空位;

　　dense_rank() ,在遇到数据相同项时,不会留下空位;

　　这里稍微有个取巧的地方就是我们将Fflag字段当做数字进行分组之后的排序，当然了可以人为手动的给不同flag打上权重，也行。

　　这样的话就要同时使用row_number()和rank()来实现了，我的sql记录一下：

　　createtablev1_final_app_score_20180914as

　　selectdevice_number,prod_name,score,flagfrom(

　　selectdevice_number,prod_name,score,flag,rank()

　　over(partitionbydevice_numberorderbyflagdesc)asrank_numfrom(

　　selectdevice_number,prod_name,score,flagfrom(

　　selectdevice_number,prod_name,score,flag,row_number()

　　over(partitionbydevice_number,prod_nameorderbyflagdesc)asnum

　　fromv1__app_score

　　)twheret.num=1)tt)tttwherettt.rank_num=1

　　orderbydevice_number;

转载请注明原文地址: https://www.6miu.com/read-5035783.html

Java

最新回复(0)