sqoop使用指南
一、sqoop介绍
Sqoop是一个用来将Hadoop和关系型数据库中的数据相互转移的工具。
可以将一个关系数据库(例如:MySQL,Oracle等)中的数据导进到Hadoop的HDFS文件系统中,也可以将HDFS的数据导进关系型数据库。
二、sqoop数据导入(以SQLServer数据库为例)
(1)、全表导入
全表导入,顾名思义就是将关系型数据库指定的表数据导入到HDFS文件系统的根目录。
-- ... -- -- --
--...
--
--
--
(2)、全表导入到HDFS文件系统指定文件夹
顾名思义,就是将关系型数据库指定的表数据导入到HDFS文件系统的指定文件目录。指定的文件夹必须不能存在,sqoop会拒绝向已经存在的文件夹写入,以避免覆盖数据。
-- ... -- -- -- ---
--...
--
--
--
---
(3)、部分表导入到HDFS文件系统
顾名思义,就是将关系型数据库指定的表数据中的部分数据导入到HDFS文件系统中。
-- ... -- --
-- --- ---
--
---
-- ... -- --
-- -- ---
--
(4)、保护密码
顾名思义,就是在输入数据库的密码的时候,命令sqoop从键盘键入中获取密码
-- ... -- -
-- -- ---
--
(5)、使用其他符号分割数据字段
顾名思义,在sqoop传导数据时,默认的数据字段分割符为',',用户可以自定义数据字段分割符。
-- ... -- --
-- -- --- ----
----
-- ... -- --
-- -- --- ---
-- ... -- --
-- -- --- ---
---- ---
----- , , .
-----, ,
暂时还没有找到方法来清除字段内的'\t'