5 并行数据加载
本章简述Greenplum的数据加载特性。
在一个大规模的,TB级的数据仓库上,大量的数据必须在一个较短的维护窗口中加载。Greenplum支持快速的、并行数据加载和外部表功能。管理员可以选择单行错误隔离模式的外部表以便将错误的数据过滤到一个单独的表中,同时继续加载正确的格式化的数据行。管理员也可以通过设定加载选项的阈值,以便控制不正确格式化行数导致的Greenplum数据库引擎中止加载操作。
通过与Greenplum数据引擎的并行文件服务器(gpfdist)结合使用外部表,管理员可以实现从Greenplum数据系统最大并行度和负载带宽。
Figure 2: External Tables Using Greenplum ParallelFile Server (gpfdist)
Greenplum的另外一个功能是gpload,运行您在YAML格式的控制文件指定装载任务。你描述在控制文件中的源数据位置,格式,需要转换,参与的主机,数据库的目的地,以及其他细节和gpload执行的负荷。这使您可以描述一个复杂的任务,并在可控,可重复的方式执行。