一、Hadoop的来源
二、hadoop的子项目
三、Hadoop的安装与版本
Hadoop 的有三条线并行演化,各个版本的功能是不一样的。所以2.7并不一定比0.23的要新。
比如说,0.23这个版本增加了用户认证的功能,但其他的版本确没有此功能。
官方地址:https://hadoop.apache.org,官方文档完整,较清晰,不过是英语,其实也是容易读懂的
四、HDFS基本知识
可以做到故障检测:通过心跳包来检测datanode是否死机,datanode报告 block,进行数据完整性检测
也可以通过空间回收机制提高空间利用
五、可以通过shell 命令来操作
六、HDFS优点
七:HDFS缺点
八:HADF架构
HDFS的数据存储单元BLOCK
HDFS的设计思想
九:NAMENODE与secondaryNameNode、datanode的功能
metadata存储在内存中,如果HDFS小文件太多的话,可会导致METAdata文件过大,造成错误。
secondaryNameNode根据edits.log日志文件合并fsimage
十、HDFS的读写流程
写流程中的是先把block写到一个datanode,之后根据配置的副本机制,datanode之间自动复制。
十一、HDFS的文件权限
十二、安全模式:类似初始化
十三、配置文件
core-site.xml
配置namenode
<property> <name>fs.defaultFS</name> <value>hdfs://hadoop-maste:9000/</value> </property>
配置secondnamenode在master配置文件中
配置hdfs-site.xml
<property> <name>dfs.namenode.name.dir</name> <value>file:/usr/local/hadoop2.7/dfs/name</value> </property> <property> <name>dfs.datanode.data.dir</name> <value>file:/usr/local/hadoop2.7/dfs/data</value> </property> <property> <name>dfs.webhdfs.enabled</name> <value>true</value> </property> <property> <name>dfs.replication</name> <value>2</value> </property> <property> <name>dfs.permissions.enabled</name> <value>false</value> </property>