Spark 2.2.1 Parquet文件处理的案例与解读

xiaoxiao2021-02-28  25

Spark 2.2.1 Parquet文件处理的案例与解读 

(一) 加载数据

加载Parquet数据源,并将加载后的people使用createOrReplaceTempView方法注册到临时表中,然后使用SQL语句对该临时表进行操作,最后将操作结果打印出来。

scala> valpeople =spark.read.parquet("/resources/people.parquet") 18/02/18 08:51:40WARN metastore.ObjectStore: Failed to get database global_temp, returningNoSuchObjectException people:org.apache.spark.sql.DataFrame = [age: bigint, name: string] scala>people.createOrReplaceTempView("parquetFile") scala> valteenagers = spark.sql("SELECT name FROM parquetFile WHERE age >= 13 ANDage <= 19") teenagers:org.apache.spark.sql.DataFrame = [name: string] scala>teenagers.show ------ | name| ------ |Justin| ------

(二) 分区发现

在类似于Hive的系统上,表分区是一种常见的优化方法。在一个分区表中,数据通常存储在不同

段智华 认证博客专家 Spark AI 企业级AI技术 本人从事大数据人工智能开发和运维工作十余年,码龄5年,深入研究Spark源码,参与王家林大咖主编出版Spark+AI系列图书5本,清华大学出版社最新出版2本新书《Spark大数据商业实战三部曲:内核解密|商业案例|性能调优》第二版、《企业级AI技术内幕:深度学习框架开发+机器学习案例实战+Alluxio解密》,《企业级AI技术内幕》新书分为盘古人工智能框架开发专题篇、机器学习案例实战篇、分布式内存管理系统Alluxio解密篇。Spark新书第二版以数据智能为灵魂,包括内核解密篇,商业案例篇,性能调优篇和Spark+AI解密篇。从2015年开始撰写博文,累计原创1059篇,博客阅读量达155万次
转载请注明原文地址: https://www.6miu.com/read-2619890.html

最新回复(0)