大数据生态圈里面有很多技术,比如hdfs、yarn、spark、hive、hbase等,但这些技术很多都得命令行敲命令来执行管理。 hue就是这样一个为大数据技术提供界面操作,并将各个技术做整合的工具。
hue 4 (下面为可选,安装了哪个就用哪个) hadoop 2.7.3 hive 2.3 hbase 1.3
本着部署安装的东西能用docker就用docker的原则,这里使用docker安装。 安装docker看这里 http://blog.csdn.net/dante_003/article/details/70208908 hue的官方github地址 https://github.com/cloudera/hue https://github.com/cloudera/hue/tree/master/tools/docker
这里我没有用官方的启动命令,文档里面的启动命令略微麻烦,这里我修改了一下启动命令。
我用的命令是在一定环境里面最方便的,但不一定是大家通用的,大家根据实际环境调整
docker run --name=hue -d \ --net=host \ -v /etc/hosts/:/etc/hosts \ -v $PWD/pseudo-distributed.ini:/hue/desktop/conf/pseudo-distributed.ini \ gethue/hue:latest #注意: #让hue在master节点上启动,例如hdfs、yarn、regionmaster、hive等这些节点上,这样容器里面的hue可以直接使用本机的配置文件和服务 #--net=host,使用宿主机的网络 #将本机的hosts映射进去替换,如hdfs上传的时候,要用到datanode的hostname容器hue的配置文件在/hue/desktop/conf/pseudo-distributed.ini,可以将它拷出来,自定义修改一些内容,然后映射进去。 因为我这里hadoop hive hbase服务端口都是默认的,所以这里直接用hue默认的配置文件就可以了。
为了让hue能够访问hdfs,需要在hdfs-site.xml里面配置一些内容
<property> <name>hadoop.proxyuser.hue.hosts</name> <value>*</value> </property> <property> <name>hadoop.proxyuser.hue.groups</name> <value>*</value> </property>在hue里面可以对hdfs文件删除、移动、修改权限等操作
hue访问hbase是用的thriftserver,并且是thrift1,不是thrift2,所以要在master上面启动thrif1
hbase/bin/hbase-daemon.sh start thrift可以查看hbase的表,表信息,可以对表进行操作
hive只需启动hiveserver2,thriftserver的10000端口启动即可