Sqoop概述
Sqoop是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql等)间进行数据的传递。可以将关系型数据库(MySQL ,Oracle,Postgres等)中的数据导入到HDFS中,也可以将HDFS的数据导进到关系型数据库中。
Sqoop项目开始于2009年,最早是作为Hadoop的一个第三方模块存在,后来为了让使用者能够快速部署,也为了让开发人员能够更快速的迭代开发,Sqoop独立成为一个 Apache 项目。
将导入或导出命令转换为 MapReduce 程序来实现。翻译出的 MapReduce 中主要是对 inputformat 和outputformat 进行定制。
安装配置
Sqoop 官网:http://sqoop.apache.org/
Sqoop下载地址:http://www.apache.org/dyn/closer.lua/sqoop/
1. 下载、上传并解压安装包
将下载的安装包 sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gz 上传到虚拟机中;解压缩软件包;
1 2 3 tar zxvf sqoop-1.4.7.bin__hadoop-2.6.0.tar.gz mv sqoop-1.4.7.bin__hadoop-2.6.0/ ../servers/sqoop-1.4.7/
2. 增加环境变量,并使其生效
1 2 3 4 5 6 7 vi /etc/profile # 增加以下内容 export SQOOP_HOME=/opt/lagou/servers/sqoop-1.4.7 export PATH=$PATH:$SQOOP_HOME/bin source /etc/profile
3. 创建、修改配置文件
1 2 3 4 5 6 7 8 9 # 配置文件位置 $SQOOP_HOME/conf;要修改的配置文件为 sqoop-env.sh cd $SQOOP_HOME/conf/ cp sqoop-env-template.sh sqoop-env.sh vi sqoop-env.sh # 在文件最后增加以下内容 export HADOOP_COMMON_HOME=/opt/lagou/servers/hadoop-2.9.2 export HADOOP_MAPRED_HOME=/opt/lagou/servers/hadoop-2.9.2 export HIVE_HOME=/opt/lagou/servers/hive-2.3.7
4. 拷贝JDBC驱动程序
1 2 3 4 5 6 # 硬拷贝 和 建立软链接都可以,选择一个执行即可。 # 硬拷贝 cp /opt/lagou/servers/hive-2.3.7/lib/mysql-connector-java-5.1.46.jar /opt/lagou/servers/sqoop-1.4.7/lib/ # 建立软链接 ln -s /opt/lagou/servers/hive-2.3.7/lib/mysql-connector-java-5.1.46.jar /opt/lagou/servers/sqoop-1.4.7/lib/
5. 拷贝依赖的 jar
将 $HIVE_HOME/lib 下的 hive-common-2.3.7.jar,拷贝到 $SQOOP_HOME/lib 目录下。
如不拷贝在MySQL往Hive导数据的时候将会出现错误:ClassNotFoundException: org.apache.hadoop.hive.conf.HiveConf
1 2 3 4 5 6 # 硬拷贝 和 建立软链接都可以,选择一个执行即可。 # 硬拷贝 cp $HIVE_HOME/lib/hive-common-2.3.7.jar $SQOOP_HOME/lib/ # 建立软链接 ln -s /opt/lagou/servers/hive-2.3.7/lib/hive-common-2.3.7.jar /opt/lagou/servers/sqoop-1.4.7/lib/hive-common-2.3.7.jar
将 H A D O O P H O M E / s h a r e / h a d o o p / t o o l s / l i b / j s o n − 20170516. j a r 拷贝到 HADOOP_HOME/share/hadoop/tools/lib/json-20170516.jar 拷贝到 H A D OO P H OME / s ha re / ha d oo p / t oo l s / l ib / j so n − 20170516. ja r 拷贝到 SQOOP_HOME/lib/ 目录下。
如不拷贝在创建sqoop job时会报:java.lang.NoClassDefFoundError: org/json/JSONObject
1 2 3 4 5 6 # 硬拷贝 和 建立软链接都可以,选择一个执行即可。 # 硬拷贝 cp $HADOOP_HOME/share/hadoop/tools/lib/json-20170516.jar $SQOOP_HOME/lib/ # 建立软链接 ln -s /opt/lagou/servers/hadoop-2.9.2/share/hadoop/tools/lib/json-20170516.jar /opt/lagou/servers/sqoop-1.4.7/lib/json-20170516.jar
6. 安装验证
1 2 3 4 5 6 sqoop version 20/06/19 10:37:24 INFO sqoop.Sqoop: Running Sqoop version: 1.4.7 Sqoop 1.4.7 git commit id 2328971411f57f0cb683dfb79d19d4d19d185dd8 Compiled by maugli on Thu Dec 21 15:59:58 STD 2017