【若泽大数据实战第十天】Hadoop 参数

xiaoxiao2021-02-28  36

前言:

Hadoop三个参数文件,我不是很理解,我网上找了一篇学习下

      配置hadoop,主要是配置core-site.xml,hdfs-site.xml,mapred-site.xml三个配置文件,默认下来,这些配置文件都是空的,所以很难知道这些配置文件有哪些配置可以生效,上网找的配置可能因为各个hadoop版本不同,导致无法生效。浏览更多的配置,有两个方法: 1.选择相应版本的hadoop,下载解压后,搜索*.xml,找到core-default.xml,hdfs-default.xml,mapred-default.xml,这些就是默认配置,可以参考这些配置的说明和key,配置hadoop集群。 core-site.xml是全局配置, hdfs-site.xml和mapred-site.xml分别是hdfs和mapred的局部配置。   2       常用的端口配置2.1  HDFS端口 参数 描述 默认 配置文件 例子值 fs.default.name namenode namenode RPC交互端口 8020 core-site.xml hdfs://master:8020/ dfs.http.address NameNode web管理端口 50070 hdfs- site.xml 0.0.0.0:50070 dfs.datanode.address datanode 控制端口 50010 hdfs -site.xml 0.0.0.0:50010 dfs.datanode.ipc.address datanode的RPC服务器地址和端口 50020 hdfs-site.xml 0.0.0.0:50020 dfs.datanode.http.address datanode的HTTP服务器和端口 50075 hdfs-site.xml 0.0.0.0:50075 2.2  MR端口 参数 描述 默认 配置文件 例子值 mapred.job.tracker job-tracker交互端口 8021 mapred-site.xml hdfs://master:8021/ job tracker的web管理端口 50030 mapred-site.xml 0.0.0.0:50030 mapred.task.tracker.http.address task-tracker的HTTP端口 50060 mapred-site.xml 0.0.0.0:50060 2.3  其它端口 参数 描述 默认 配置文件 例子值 dfs.secondary.http.address secondary NameNode web管理端口 50090 hdfs-site.xml 0.0.0.0:50090            3       三个缺省配置参考文件说明3.1  core-default.html 序号 参数名 参数值 参数说明 1 hadoop.tmp.dir                      /tmp/hadoop-${user.name}                              临时目录设定 2 hadoop.native.lib                   true                                                 使用本地hadoop库标识。 3 hadoop.http.filter.initializers      http服务器过滤链设置                         4 hadoop.security.group.mapping       org.apache.hadoop.security.ShellBasedUnixGroupsMapping 组内用户的列表的类设定 5 hadoop.security.authorization       false                                                 服务端认证开启 6 hadoop.security.authentication      simple                                                 无认证或认证设置 7 hadoop.security.token.service.use_ip true                                                 是否开启使用IP地址作为连接的开关 8 hadoop.logfile.size                10000000                                              日志文件最大为10M 9 hadoop.logfile.count 10                                                    日志文件数量为10个 10 io.file.buffer.size 4096 流文件的缓冲区为4K 11 io.bytes.per.checksum 512 校验位数为512字节 12 io.skip.checksum.errors false 校验出错后是抛出异常还是略过标识。True则略过。 13 io.compression.codecs org.apache.hadoop.io.compress.DefaultCodec, org.apache.hadoop.io.compress.GzipCodec, org.apache.hadoop.io.compress.BZip2Codec, org.apache.hadoop.io.compress.SnappyCodec 压缩和解压的方式设置 14 io.serializations org.apache.hadoop.io.serializer.WritableSerialization 序例化和反序列化的类设定 15 fs.default.name file:///                                             缺省的文件URI标识设定。 16 fs.trash.interval 0                                                    文件废弃标识设定,0为禁止此功能 17 fs.file.impl org.apache.hadoop.fs.LocalFileSystem                本地文件操作类设置 18 fs.hdfs.impl org.apache.hadoop.hdfs.DistributedFileSystem         HDFS文件操作类设置 19 fs.s3.impl org.apache.hadoop.fs.s3.S3FileSystem                S3文件操作类设置 20 fs.s3n.impl             org.apache.hadoop.fs.s3native.NativeS3FileSystem S3文件本地操作类设置 21 fs.kfs.impl             org.apache.hadoop.fs.kfs.KosmosFileSystem KFS文件操作类设置. 22 fs.hftp.impl             org.apache.hadoop.hdfs.HftpFileSystem HTTP方式操作文件设置 23 fs.hsftp.impl            org.apache.hadoop.hdfs.HsftpFileSystem HTTPS方式操作文件设置 24 fs.webhdfs.impl          org.apache.hadoop.hdfs.web.WebHdfsFileSystem WEB方式操作文件类设置 25 fs.ftp.impl             org.apache.hadoop.fs.ftp.FTPFileSystem FTP文件操作类设置 26 fs.ramfs.impl            org.apache.hadoop.fs.InMemoryFileSystem 内存文件操作类设置 27 fs.har.impl             org.apache.hadoop.fs.HarFileSystem 压缩文件操作类设置. 28 fs.har.impl.disable.cache true 是否缓存har文件的标识设定 29 fs.checkpoint.dir       ${hadoop.tmp.dir}/dfs/namesecondary 备份名称节点的存放目前录设置 30 fs.checkpoint.edits.dir      ${fs.checkpoint.dir} 备份名称节点日志文件的存放目前录设置 31 fs.checkpoint.period         3600 动态检查的间隔时间设置 32 fs.checkpoint.size          67108864 日志文件大小为64M 33 fs.s3.block.size             67108864 写S3文件系统的块的大小为64M 34 fs.s3.buffer.dir             ${hadoop.tmp.dir}/s3 S3文件数据的本地存放目录 35 fs.s3.maxRetries             4 S3文件数据的偿试读写次数 36 fs.s3.sleepTimeSeconds       10 S3文件偿试的间隔 37 local.cache.size             10737418240 缓存大小设置为10GB 38 io.seqfile.compress.blocksize 1000000 压缩流式文件中的最小块数为100万 39 io.seqfile.lazydecompress    true 块是否需要压缩标识设定 40 io.seqfile.sorter.recordlimit 1000000 内存中排序记录块类最小为100万 41 io.mapfile.bloom.size 1048576 BloomMapFiler过滤量为1M 42 io.mapfile.bloom.error.rate 0.005   43 hadoop.util.hash.type murmur 缺少hash方法为murmur 44 ipc.client.idlethreshold 4000 连接数据最小阀值为4000 45 ipc.client.kill.max 10 一个客户端连接数最大值为10 46 ipc.client.connection.maxidletime 10000 断开与服务器连接的时间最大为10秒 47 ipc.client.connect.max.retries 10 建立与服务器连接的重试次数为10次 48 ipc.server.listen.queue.size 128 接收客户连接的监听队例的长度为128 49 ipc.server.tcpnodelay false 开启或关闭服务器端TCP连接算法 50 ipc.client.tcpnodelay false 开启或关闭客户端TCP连接算法 51 webinterface.private.actions false Web交互的行为设定 52 hadoop.rpc.socket.factory.class.default       org.apache.hadoop.net.StandardSocketFactory 缺省的socket工厂类设置 53 hadoop.rpc.socket.factory.class.ClientProtocol   与dfs连接时的缺省socket工厂类 54 hadoop.socks.server                             服务端的工厂类缺省设置为SocksSocketFactory. 55 topology.node.switch.mapping.impl             org.apache.hadoop.net.ScriptBasedMapping   56 topology.script.file.name                        57 topology.script.number.args                   100 参数数量最多为100 58 hadoop.security.uid.cache.secs                14400   3.2  hdfs-default.html 序号 参数名 参数值 参数说明 1 dfs.namenode.logging.level       info          输出日志类型 2 dfs.secondary.http.address       0.0.0.0:50090 备份名称节点的http协议访问地址与端口                                                                                     3 dfs.datanode.address             0.0.0.0:50010 数据节点的TCP管理服务地址和端口 4 dfs.datanode.http.address         0.0.0.0:50075 数据节点的HTTP协议访问地址和端口 5 dfs.datanode.ipc.address          0.0.0.0:50020 数据节点的IPC服务访问地址和端口 6 dfs.datanode.handler.count       3             数据节点的服务连接处理线程数 7 dfs.http.address                  0.0.0.0:50070 名称节点的http协议访问地址与端口 8 dfs.https.enable                  false         支持https访问方式标识 9 dfs.https.need.client.auth       false         客户端指定https访问标识 10 dfs.https.server.keystore.resource ssl-server.xml Ssl密钥服务端的配置文件 11 dfs.https.client.keystore.resource ssl-client.xml Ssl密钥客户端的配置文件 12 dfs.datanode.https.address       0.0.0.0:50475 数据节点的HTTPS协议访问地址和端口 13 dfs.https.address                0.0.0.0:50470 名称节点的HTTPS协议访问地址和端口 14 dfs.datanode.dns.interface       default       数据节点采用IP地址标识 15 dfs.datanode.dns.nameserver       default       指定DNS的IP地址 16 dfs.replication.considerLoad      true          加载目标或不加载的标识 17 dfs.default.chunk.view.size       32768          浏览时的文件块大小设置为32K 18 dfs.datanode.du.reserved          0             每个卷预留的空闲空间数量 19 dfs.name.dir                      ${hadoop.tmp.dir}/dfs/name 存贮在本地的名字节点数据镜象的目录,作为名字节点的冗余备份 20 dfs.name.edits.dir                ${dfs.name.dir}          存贮文件操作过程信息的存贮目录 21 dfs.web.ugi                      webuser,webgroup          Web接口访问的用户名和组的帐户设定 22 dfs.permissions                   true                      文件操作时的权限检查标识。 23 dfs.permissions.supergroup       supergroup                超级用户的组名定义 24 dfs.block.access.token.enable    false                     数据节点访问令牌标识 25 dfs.block.access.key.update.interval 600                      升级访问钥时的间隔时间 26 dfs.block.access.token.lifetime    600                      访问令牌的有效时间 27 dfs.data.dir                         ${hadoop.tmp.dir}/dfs/data 数据节点的块本地存放目录 28 dfs.datanode.data.dir.perm          755                      数据节点的存贮块的目录访问权限设置 29 dfs.replication                     3                         缺省的块复制数量 30 dfs.replication.max                  512                      块复制的最大数量 31 dfs.replication.min                1                         块复制的最小数量 32 dfs.block.size                      67108864                  缺省的文件块大小为64M 33 dfs.df.interval                     60000                      磁盘空间统计间隔为6秒 34 dfs.client.block.write.retries      3                         块写入出错时的重试次数 35 dfs.blockreport.intervalMsec       3600000                   块的报告间隔时为1小时 36 dfs.blockreport.initialDelay       0                         块顺序报告的间隔时间 37 dfs.heartbeat.interval             3                         数据节点的心跳检测间隔时间 38 dfs.namenode.handler.count          10                        名称节点的连接处理的线程数量 39 dfs.safemode.threshold.pct          0.999f                   启动安全模式的阀值设定 40 dfs.safemode.extension             30000                     当阀值达到量值后扩展的时限 41 dfs.balance.bandwidthPerSec         1048576                   启动负载均衡的数据节点可利用带宽最大值为1M 42 dfs.hosts                             可与名称节点连接的主机地址文件指定。 43 dfs.hosts.exclude                     不充计与名称节点连接的主机地址文件设定 44 dfs.max.objects                     0 文件数、目录数、块数的最大数量 45 dfs.namenode.decommission.interval 30 名称节点解除命令执行时的监测时间周期 46 dfs.namenode.decommission.nodes.per.interval 5       名称节点解除命令执行是否完检测次数 47 dfs.replication.interval                   3       名称节点计算数据节点的复制工作的周期数. 48 dfs.access.time.precision                   3600000 充许访问文件的时间精确到1小时 49 dfs.support.append                         false    是否充许链接文件指定 50 dfs.namenode.delegation.key.update-interval 86400000 名称节点上的代理令牌的主key的更新间隔时间为24小时 51 dfs.namenode.delegation.token.max-lifetime 604800000 代理令牌的有效时间最大值为7天 52 dfs.namenode.delegation.token.renew-interval 86400000 代理令牌的更新时间为24小时 53 dfs.datanode.failed.volumes.tolerated       0       决定停止数据节点提供服务充许卷的出错次数。0次则任何卷出错都要停止数据节点 3.3  mapred-default.html 序号 参数名 参数值 参数说明 1 hadoop.job.history.location   作业跟踪管理器的静态历史文件的存放目录。 2 hadoop.job.history.user.location   可以指定具体某个作业的跟踪管理器的历史文件存放目录 3 mapred.job.tracker.history.completed.location   已完成作业的历史文件的存放目录 4 io.sort.factor 10          排完序的文件的合并时的打开文件句柄数 5 io.sort.mb 100         排序文件的内存缓存大小为100M 6 io.sort.record.percent 0.05       排序线程阻塞的内存缓存剩余比率 7 io.sort.spill.percent 0.80       当缓冲占用量为该值时,线程需要将内容先备份到磁盘中。 8 io.map.index.skip 0          索引条目的间隔设定 9 mapred.job.tracker local       作业跟踪管理器是否和MR任务在一个进程中 10 mapred.job.tracker.http.address 0.0.0.0:50030 作业跟踪管理器的HTTP服务器访问端口和地址 11 mapred.job.tracker.handler.count          10         作业跟踪管理器的管理线程数,线程数比例是任务管理跟踪器数量的0.04 12 mapred.task.tracker.report.address         127.0.0.1:0 任务管理跟踪器的主机地址和端口地址 13 mapred.local.dir                           ${hadoop.tmp.dir}/mapred/local MR的中介数据文件存放目录 14 mapred.system.dir                         ${hadoop.tmp.dir}/mapred/system MR的控制文件存放目录 15 mapreduce.jobtracker.staging.root.dir      ${hadoop.tmp.dir}/mapred/staging 每个正在运行作业文件的存放区 16 mapred.temp.dir                            ${hadoop.tmp.dir}/mapred/temp   MR临时共享文件存放区    17 mapred.local.dir.minspacestart             0                               MR本地中介文件删除时,不充许有任务执行的数量值。 18 mapred.local.dir.minspacekill             0                               MR本地中介文件删除时,除非所有任务都已完成的数量值。 19 mapred.tasktracker.expiry.interval         600000                         任务管理跟踪器不发送心跳的累计时间间隔超过600秒,则任务管理跟踪器失效 20 mapred.tasktracker.resourcecalculatorplugin   指定的一个用户访问资源信息的类实例 21 mapred.tasktracker.taskmemorymanager.monitoring-interval 5000    监控任务管理跟踪器任务内存使用率的时间间隔 22 mapred.tasktracker.tasks.sleeptime-before-sigkill       5000    发出进程终止后,间隔5秒后发出进程消亡信号 23 mapred.map.tasks                                        2       每个作业缺省的map任务数为2 24 mapred.reduce.tasks                                     1       每个作业缺省的reduce任务数为1 25 mapreduce.tasktracker.outofband.heartbeat               false   让在任务结束后发出一个额外的心跳信号 26 mapreduce.tasktracker.outofband.heartbeat.damper       1000000 当额外心跳信号发出量太多时,则适当阻止 27 mapred.jobtracker.restart.recover                      false   充许任务管理器恢复时采用的方式 28 mapred.jobtracker.job.history.block.size                3145728 作业历史文件块的大小为3M 29 mapreduce.job.split.metainfo.maxsize                   10000000 分隔元信息文件的最大值是10M以下 30 mapred.jobtracker.taskScheduler                      org.apache.hadoop.mapred.JobQueueTaskScheduler 设定任务的执行计划实现类 31 mapred.jobtracker.taskScheduler.maxRunningTasksPerJob   作业同时运行的任务数的最大值 32 mapred.map.max.attempts                              4    Map任务的重试次数 33 mapred.reduce.max.attempts                           4    Reduce任务的重试次数 34 mapred.reduce.parallel.copies                         5    在复制阶段时reduce并行传送的值。 35 mapreduce.reduce.shuffle.maxfetchfailures            10    取map输出的最大重试次数 36 mapreduce.reduce.shuffle.connect.timeout             180000 REDUCE任务连接任务管理器获得map输出时的总耗时是3分钟          37 mapreduce.reduce.shuffle.read.timeout                180000 REDUCE任务等待map输出数据的总耗时是3分钟 38 mapred.task.timeout                                  600000 如果任务无读无写时的时间耗时为10分钟,将被终止 39 mapred.tasktracker.map.tasks.maximum                2    任管管理器可同时运行map任务数为2 40 mapred.tasktracker.reduce.tasks.maximum             2    任管管理器可同时运行reduce任务数为2 41 mapred.jobtracker.completeuserjobs.maximum 100    当用户的完成作业数达100个后,将其放入作业历史文件中 42 mapreduce.reduce.input.limit                -1      Reduce输入量的限制。 43 mapred.job.tracker.retiredjobs.cache.size   1000    作业状态为已不在执行的保留在内存中的量为1000 44 mapred.job.tracker.jobhistory.lru.cache.size 5       作业历史文件装载到内存的数量 45 mapred.child.java.opts                      -Xmx200m 启动task管理的子进程时的内存设置 46 mapred.child.env                              子进程的参数设置 47 mapred.child.ulimit                           虚拟机所需内存的设定。 48 mapred.cluster.map.memory.mb                -1        49 mapred.cluster.reduce.memory.mb             -1        50 mapred.cluster.max.map.memory.mb            -1        51 mapred.cluster.max.reduce.memory.mb         -1        52 mapred.job.map.memory.mb                   -1        53 mapred.job.reduce.memory.mb                -1        54 mapred.child.tmp                            /tmp    Mr任务信息的存放目录 55 mapred.inmem.merge.threshold                1000    内存中的合并文件数设置 56 mapred.job.shuffle.merge.percent            0.66      57 mapred.job.shuffle.input.buffer.percent    0.70      58 mapred.job.reduce.input.buffer.percent      0.0      59 mapred.map.tasks.speculative.execution      true    Map任务的多实例并行运行标识 60 mapred.reduce.tasks.speculative.execution   true    Reduce任务的多实例并行运行标识 61 mapred.job.reuse.jvm.num.tasks 1            每虚拟机运行的任务数 62 mapred.min.split.size 0            Map的输入数据被分解的块数设置 63 mapred.jobtracker.maxtasks.per.job -1          一个单独作业的任务数设置 64 mapred.submit.replication 10          提交作业文件的复制级别 65 mapred.tasktracker.dns.interface default      任务管理跟踪器是否报告IP地址名的开关 66 mapred.tasktracker.dns.nameserver default      作业和任务管理跟踪器之间通讯方式采用的DNS服务的主机名或IP地址 67 tasktracker.http.threads 40          http服务器的工作线程数量 68 mapred.task.tracker.http.address 0.0.0.0:50060 任务管理跟踪器的http服务器的地址和端口 69 keep.failed.task.files false       失败任务是否保存到文件中 70 mapred.output.compress false       作业的输出是否压缩 71 mapred.output.compression.type RECORD       作业输出采用NONE, RECORD or BLOCK三种方式中一种压缩的写入到流式文件 72 mapred.output.compression.codec org.apache.hadoop.io.compress.DefaultCodec 压缩类的设置 73 mapred.compress.map.output false                                     Map的输出是否压缩 74 mapred.map.output.compression.codec org.apache.hadoop.io.compress.DefaultCodec Map的输出压缩的实现类指定 75 map.sort.class org.apache.hadoop.util.QuickSort          排序键的排序类指定 76 mapred.userlog.limit.kb 0                                        每个任务的用户日志文件大小 77 mapred.userlog.retain.hours 24                                        作业完成后的用户日志留存时间为24小时 78 mapred.user.jobconf.limit 5242880                                  Jobconf的大小为5M 79 mapred.hosts   可与作业管理跟踪器连接的主机名 80 mapred.hosts.exclude   不可与作业管理跟踪器连接的主机名 81 mapred.heartbeats.in.second                     100                作业管理跟踪器的每秒中到达的心跳数量为100 82 mapred.max.tracker.blacklists                   4                   任务管理跟踪器的黑名单列表的数量 83 mapred.jobtracker.blacklist.fault-timeout-window 180                任务管理跟踪器超时180分钟则訪任务将被重启 84 mapred.jobtracker.blacklist.fault-bucket-width 15                    85 mapred.max.tracker.failures                     4                   任务管理跟踪器的失败任务数设定 86 jobclient.output.filter                         FAILED             控制任务的用户日志输出到作业端时的过滤方式 87 mapred.job.tracker.persist.jobstatus.active    false               是否持久化作业管理跟踪器的信息 88 mapred.job.tracker.persist.jobstatus.hours      0                   持久化作业管理跟踪器的信息的保存时间 89 mapred.job.tracker.persist.jobstatus.dir       /jobtracker/jobsInfo 作业管理跟踪器的信息存放目录 90 mapreduce.job.complete.cancel.delegation.tokens true                恢复时是否变更领牌    91 mapred.task.profile                            false               任务分析信息是否建设标志 92 mapred.task.profile.maps                        0-2                设置map任务的分析范围 93 mapred.task.profile.reduces                     0-2                设置reduce任务的分析范围 94 mapred.line.input.format.linespermap            1                   每次切分的行数设置 95 mapred.skip.attempts.to.start.skipping          2                   在跳转模式未被设定的情况下任务的重试次数                                                                                     96 mapred.skip.map.auto.incr.proc.count            true                MapRunner在调用map功能后的增量处理方式设置 97 mapred.skip.reduce.auto.incr.proc.count         true                在调用reduce功能后的增量处理方式设置 98 mapred.skip.out.dir                                跳过记录的输出目录 99 mapred.skip.map.max.skip.records                0                     100 mapred.skip.reduce.max.skip.groups             0                     101 job.end.retry.attempts                         0                   Hadoop偿试连接通知器的次数   102 job.end.retry.interval                         30000               通知偿试回应的间隔操作为30秒 103 hadoop.rpc.socket.factory.class.JobSubmissionProtocol   指定与作业跟踪管理器的通讯方式,缺省是采用rpc方式 104 mapred.task.cache.levels                            2      任务缓存级别设置 105 mapred.queue.names                                  default 分隔作业队例的分隔符设定 106 mapred.acls.enabled                                  false 指定ACL访问控制列表 107 mapred.queue.default.state                            RUNNING 定义队列的状态 108 mapred.job.queue.name                               default 已提交作业的队列设定 109 mapreduce.job.acl-modify-job                           指定可修改作业的ACL列表 110 mapreduce.job.acl-view-job                             指定可浏临作业的ACL列表 111 mapred.tasktracker.indexcache.mb                     10    任务管理跟踪器的索引内存的最大容器 112 mapred.combine.recordsBeforeProgress                10000 在聚合处理时的记录块数 113 mapred.merge.recordsBeforeProgress                   10000 在汇总处理时的记录块数 114 mapred.reduce.slowstart.completed.maps               0.05     115 mapred.task.tracker.task-controller                  org.apache.hadoop.mapred.DefaultTaskController 任务管理器的设定 116 mapreduce.tasktracker.group                             任务管理器的组成员设定 117 mapred.healthChecker.script.path                       脚本的绝对路径指定,这些脚本是心跳服务的 118 mapred.healthChecker.interval                        60000                                        节点心跳信息的间隔 119 mapred.healthChecker.script.timeout                  600000                                          120 mapred.healthChecker.script.args                       参数列表 121 mapreduce.job.counters.limit                         120                                           作业计数器的最小值 配置hadoop,主要是配置core-site.xml,hdfs-site.xml,mapred-site.xml三个配置文件,默认下来,这些配置文件都是空的,所以很难知道这些配置文件有哪些配置可以生效,上网找的配置可能因为各个hadoop版本不同,导致无法生效。浏览更多的配置,有两个方法: 1.选择相应版本的hadoop,下载解压后,搜索*.xml,找到core-default.xml,hdfs-default.xml,mapred-default.xml,这些就是默认配置,可以参考这些配置的说明和key,配置hadoop集群。 2.浏览apache官网,三个配置文件链接如下:     http://hadoop.apache.org/common/docs/current/core-default.html     http://hadoop.apache.org/common/docs/current/hdfs-default.html     http://hadoop.apache.org/common/docs/current/mapred-default.html    这里是浏览hadoop当前版本号的默认配置文件,其他版本号,要另外去官网找。其中第一个方法找到默认的配置是最好的,因为每个属性都有说明,可以直接使用。另外,core-site.xml是全局配置,hdfs-site.xml和mapred-site.xml分别是hdfs和mapred的局部配置。     2       常用的端口配置2.1  HDFS端口 参数 描述 默认 配置文件 例子值 fs.default.name namenode namenode RPC交互端口 8020 core-site.xml hdfs://master:8020/ dfs.http.address NameNode web管理端口 50070 hdfs- site.xml 0.0.0.0:50070 dfs.datanode.address datanode 控制端口 50010 hdfs -site.xml 0.0.0.0:50010 dfs.datanode.ipc.address datanode的RPC服务器地址和端口 50020 hdfs-site.xml 0.0.0.0:50020 dfs.datanode.http.address datanode的HTTP服务器和端口 50075 hdfs-site.xml 0.0.0.0:50075 2.2  MR端口 参数 描述 默认 配置文件 例子值 mapred.job.tracker job-tracker交互端口 8021 mapred-site.xml hdfs://master:8021/ job tracker的web管理端口 50030 mapred-site.xml 0.0.0.0:50030 mapred.task.tracker.http.address task-tracker的HTTP端口 50060 mapred-site.xml 0.0.0.0:50060 2.3  其它端口 参数 描述 默认 配置文件 例子值 dfs.secondary.http.address secondary NameNode web管理端口 50090 hdfs-site.xml 0.0.0.0:50090            3       三个缺省配置参考文件说明3.1  core-default.html 序号 参数名 参数值 参数说明 1 hadoop.tmp.dir                      /tmp/hadoop-${user.name}                              临时目录设定 2 hadoop.native.lib                   true                                                 使用本地hadoop库标识。 3 hadoop.http.filter.initializers      http服务器过滤链设置                         4 hadoop.security.group.mapping       org.apache.hadoop.security.ShellBasedUnixGroupsMapping 组内用户的列表的类设定 5 hadoop.security.authorization       false                                                 服务端认证开启 6 hadoop.security.authentication      simple                                                 无认证或认证设置 7 hadoop.security.token.service.use_ip true                                                 是否开启使用IP地址作为连接的开关 8 hadoop.logfile.size                10000000                                              日志文件最大为10M 9 hadoop.logfile.count 10                                                    日志文件数量为10个 10 io.file.buffer.size 4096 流文件的缓冲区为4K 11 io.bytes.per.checksum 512 校验位数为512字节 12 io.skip.checksum.errors false 校验出错后是抛出异常还是略过标识。True则略过。 13 io.compression.codecs org.apache.hadoop.io.compress.DefaultCodec, org.apache.hadoop.io.compress.GzipCodec, org.apache.hadoop.io.compress.BZip2Codec, org.apache.hadoop.io.compress.SnappyCodec 压缩和解压的方式设置 14 io.serializations org.apache.hadoop.io.serializer.WritableSerialization 序例化和反序列化的类设定 15 fs.default.name file:///                                             缺省的文件URI标识设定。 16 fs.trash.interval 0                                                    文件废弃标识设定,0为禁止此功能 17 fs.file.impl org.apache.hadoop.fs.LocalFileSystem                本地文件操作类设置 18 fs.hdfs.impl org.apache.hadoop.hdfs.DistributedFileSystem         HDFS文件操作类设置 19 fs.s3.impl org.apache.hadoop.fs.s3.S3FileSystem                S3文件操作类设置 20 fs.s3n.impl             org.apache.hadoop.fs.s3native.NativeS3FileSystem S3文件本地操作类设置 21 fs.kfs.impl             org.apache.hadoop.fs.kfs.KosmosFileSystem KFS文件操作类设置. 22 fs.hftp.impl             org.apache.hadoop.hdfs.HftpFileSystem HTTP方式操作文件设置 23 fs.hsftp.impl            org.apache.hadoop.hdfs.HsftpFileSystem HTTPS方式操作文件设置 24 fs.webhdfs.impl          org.apache.hadoop.hdfs.web.WebHdfsFileSystem WEB方式操作文件类设置 25 fs.ftp.impl             org.apache.hadoop.fs.ftp.FTPFileSystem FTP文件操作类设置 26 fs.ramfs.impl            org.apache.hadoop.fs.InMemoryFileSystem 内存文件操作类设置 27 fs.har.impl             org.apache.hadoop.fs.HarFileSystem 压缩文件操作类设置. 28 fs.har.impl.disable.cache true 是否缓存har文件的标识设定 29 fs.checkpoint.dir       ${hadoop.tmp.dir}/dfs/namesecondary 备份名称节点的存放目前录设置 30 fs.checkpoint.edits.dir      ${fs.checkpoint.dir} 备份名称节点日志文件的存放目前录设置 31 fs.checkpoint.period         3600 动态检查的间隔时间设置 32 fs.checkpoint.size          67108864 日志文件大小为64M 33 fs.s3.block.size             67108864 写S3文件系统的块的大小为64M 34 fs.s3.buffer.dir             ${hadoop.tmp.dir}/s3 S3文件数据的本地存放目录 35 fs.s3.maxRetries             4 S3文件数据的偿试读写次数 36 fs.s3.sleepTimeSeconds       10 S3文件偿试的间隔 37 local.cache.size             10737418240 缓存大小设置为10GB 38 io.seqfile.compress.blocksize 1000000 压缩流式文件中的最小块数为100万 39 io.seqfile.lazydecompress    true 块是否需要压缩标识设定 40 io.seqfile.sorter.recordlimit 1000000 内存中排序记录块类最小为100万 41 io.mapfile.bloom.size 1048576 BloomMapFiler过滤量为1M 42 io.mapfile.bloom.error.rate 0.005   43 hadoop.util.hash.type murmur 缺少hash方法为murmur 44 ipc.client.idlethreshold 4000 连接数据最小阀值为4000 45 ipc.client.kill.max 10 一个客户端连接数最大值为10 46 ipc.client.connection.maxidletime 10000 断开与服务器连接的时间最大为10秒 47 ipc.client.connect.max.retries 10 建立与服务器连接的重试次数为10次 48 ipc.server.listen.queue.size 128 接收客户连接的监听队例的长度为128 49 ipc.server.tcpnodelay false 开启或关闭服务器端TCP连接算法 50 ipc.client.tcpnodelay false 开启或关闭客户端TCP连接算法 51 webinterface.private.actions false Web交互的行为设定 52 hadoop.rpc.socket.factory.class.default       org.apache.hadoop.net.StandardSocketFactory 缺省的socket工厂类设置 53 hadoop.rpc.socket.factory.class.ClientProtocol   与dfs连接时的缺省socket工厂类 54 hadoop.socks.server                             服务端的工厂类缺省设置为SocksSocketFactory. 55 topology.node.switch.mapping.impl             org.apache.hadoop.net.ScriptBasedMapping   56 topology.script.file.name                        57 topology.script.number.args                   100 参数数量最多为100 58 hadoop.security.uid.cache.secs                14400   3.2  hdfs-default.html 序号 参数名 参数值 参数说明 1 dfs.namenode.logging.level       info          输出日志类型 2 dfs.secondary.http.address       0.0.0.0:50090 备份名称节点的http协议访问地址与端口                                                                                     3 dfs.datanode.address             0.0.0.0:50010 数据节点的TCP管理服务地址和端口 4 dfs.datanode.http.address         0.0.0.0:50075 数据节点的HTTP协议访问地址和端口 5 dfs.datanode.ipc.address          0.0.0.0:50020 数据节点的IPC服务访问地址和端口 6 dfs.datanode.handler.count       3             数据节点的服务连接处理线程数 7 dfs.http.address                  0.0.0.0:50070 名称节点的http协议访问地址与端口 8 dfs.https.enable                  false         支持https访问方式标识 9 dfs.https.need.client.auth       false         客户端指定https访问标识 10 dfs.https.server.keystore.resource ssl-server.xml Ssl密钥服务端的配置文件 11 dfs.https.client.keystore.resource ssl-client.xml Ssl密钥客户端的配置文件 12 dfs.datanode.https.address       0.0.0.0:50475 数据节点的HTTPS协议访问地址和端口 13 dfs.https.address                0.0.0.0:50470 名称节点的HTTPS协议访问地址和端口 14 dfs.datanode.dns.interface       default       数据节点采用IP地址标识 15 dfs.datanode.dns.nameserver       default       指定DNS的IP地址 16 dfs.replication.considerLoad      true          加载目标或不加载的标识 17 dfs.default.chunk.view.size       32768          浏览时的文件块大小设置为32K 18 dfs.datanode.du.reserved          0             每个卷预留的空闲空间数量 19 dfs.name.dir                      ${hadoop.tmp.dir}/dfs/name 存贮在本地的名字节点数据镜象的目录,作为名字节点的冗余备份 20 dfs.name.edits.dir                ${dfs.name.dir}          存贮文件操作过程信息的存贮目录 21 dfs.web.ugi                      webuser,webgroup          Web接口访问的用户名和组的帐户设定 22 dfs.permissions                   true                      文件操作时的权限检查标识。 23 dfs.permissions.supergroup       supergroup                超级用户的组名定义 24 dfs.block.access.token.enable    false                     数据节点访问令牌标识 25 dfs.block.access.key.update.interval 600                      升级访问钥时的间隔时间 26 dfs.block.access.token.lifetime    600                      访问令牌的有效时间 27 dfs.data.dir                         ${hadoop.tmp.dir}/dfs/data 数据节点的块本地存放目录 28 dfs.datanode.data.dir.perm          755                      数据节点的存贮块的目录访问权限设置 29 dfs.replication                     3                         缺省的块复制数量 30 dfs.replication.max                  512                      块复制的最大数量 31 dfs.replication.min                1                         块复制的最小数量 32 dfs.block.size                      67108864                  缺省的文件块大小为64M 33 dfs.df.interval                     60000                      磁盘空间统计间隔为6秒 34 dfs.client.block.write.retries      3                         块写入出错时的重试次数 35 dfs.blockreport.intervalMsec       3600000                   块的报告间隔时为1小时 36 dfs.blockreport.initialDelay       0                         块顺序报告的间隔时间 37 dfs.heartbeat.interval             3                         数据节点的心跳检测间隔时间 38 dfs.namenode.handler.count          10                        名称节点的连接处理的线程数量 39 dfs.safemode.threshold.pct          0.999f                   启动安全模式的阀值设定 40 dfs.safemode.extension             30000                     当阀值达到量值后扩展的时限 41 dfs.balance.bandwidthPerSec         1048576                   启动负载均衡的数据节点可利用带宽最大值为1M 42 dfs.hosts                             可与名称节点连接的主机地址文件指定。 43 dfs.hosts.exclude                     不充计与名称节点连接的主机地址文件设定 44 dfs.max.objects                     0 文件数、目录数、块数的最大数量 45 dfs.namenode.decommission.interval 30 名称节点解除命令执行时的监测时间周期 46 dfs.namenode.decommission.nodes.per.interval 5       名称节点解除命令执行是否完检测次数 47 dfs.replication.interval                   3       名称节点计算数据节点的复制工作的周期数. 48 dfs.access.time.precision                   3600000 充许访问文件的时间精确到1小时 49 dfs.support.append                         false    是否充许链接文件指定 50 dfs.namenode.delegation.key.update-interval 86400000 名称节点上的代理令牌的主key的更新间隔时间为24小时 51 dfs.namenode.delegation.token.max-lifetime 604800000 代理令牌的有效时间最大值为7天 52 dfs.namenode.delegation.token.renew-interval 86400000 代理令牌的更新时间为24小时 53 dfs.datanode.failed.volumes.tolerated       0       决定停止数据节点提供服务充许卷的出错次数。0次则任何卷出错都要停止数据节点 3.3  mapred-default.html 序号 参数名 参数值 参数说明 1 hadoop.job.history.location   作业跟踪管理器的静态历史文件的存放目录。 2 hadoop.job.history.user.location   可以指定具体某个作业的跟踪管理器的历史文件存放目录 3 mapred.job.tracker.history.completed.location   已完成作业的历史文件的存放目录 4 io.sort.factor 10          排完序的文件的合并时的打开文件句柄数 5 io.sort.mb 100         排序文件的内存缓存大小为100M 6 io.sort.record.percent 0.05       排序线程阻塞的内存缓存剩余比率 7 io.sort.spill.percent 0.80       当缓冲占用量为该值时,线程需要将内容先备份到磁盘中。 8 io.map.index.skip 0          索引条目的间隔设定 9 mapred.job.tracker local       作业跟踪管理器是否和MR任务在一个进程中 10 mapred.job.tracker.http.address 0.0.0.0:50030 作业跟踪管理器的HTTP服务器访问端口和地址 11 mapred.job.tracker.handler.count          10         作业跟踪管理器的管理线程数,线程数比例是任务管理跟踪器数量的0.04 12 mapred.task.tracker.report.address         127.0.0.1:0 任务管理跟踪器的主机地址和端口地址 13 mapred.local.dir                           ${hadoop.tmp.dir}/mapred/local MR的中介数据文件存放目录 14 mapred.system.dir                         ${hadoop.tmp.dir}/mapred/system MR的控制文件存放目录 15 mapreduce.jobtracker.staging.root.dir      ${hadoop.tmp.dir}/mapred/staging 每个正在运行作业文件的存放区 16 mapred.temp.dir                            ${hadoop.tmp.dir}/mapred/temp   MR临时共享文件存放区    17 mapred.local.dir.minspacestart             0                               MR本地中介文件删除时,不充许有任务执行的数量值。 18 mapred.local.dir.minspacekill             0                               MR本地中介文件删除时,除非所有任务都已完成的数量值。 19 mapred.tasktracker.expiry.interval         600000                         任务管理跟踪器不发送心跳的累计时间间隔超过600秒,则任务管理跟踪器失效 20 mapred.tasktracker.resourcecalculatorplugin   指定的一个用户访问资源信息的类实例 21 mapred.tasktracker.taskmemorymanager.monitoring-interval 5000    监控任务管理跟踪器任务内存使用率的时间间隔 22 mapred.tasktracker.tasks.sleeptime-before-sigkill       5000    发出进程终止后,间隔5秒后发出进程消亡信号 23 mapred.map.tasks                                        2       每个作业缺省的map任务数为2 24 mapred.reduce.tasks                                     1       每个作业缺省的reduce任务数为1 25 mapreduce.tasktracker.outofband.heartbeat               false   让在任务结束后发出一个额外的心跳信号 26 mapreduce.tasktracker.outofband.heartbeat.damper       1000000 当额外心跳信号发出量太多时,则适当阻止 27 mapred.jobtracker.restart.recover                      false   充许任务管理器恢复时采用的方式 28 mapred.jobtracker.job.history.block.size                3145728 作业历史文件块的大小为3M 29 mapreduce.job.split.metainfo.maxsize                   10000000 分隔元信息文件的最大值是10M以下 30 mapred.jobtracker.taskScheduler                      org.apache.hadoop.mapred.JobQueueTaskScheduler 设定任务的执行计划实现类 31 mapred.jobtracker.taskScheduler.maxRunningTasksPerJob   作业同时运行的任务数的最大值 32 mapred.map.max.attempts                              4    Map任务的重试次数 33 mapred.reduce.max.attempts                           4    Reduce任务的重试次数 34 mapred.reduce.parallel.copies                         5    在复制阶段时reduce并行传送的值。 35 mapreduce.reduce.shuffle.maxfetchfailures            10    取map输出的最大重试次数 36 mapreduce.reduce.shuffle.connect.timeout             180000 REDUCE任务连接任务管理器获得map输出时的总耗时是3分钟          37 mapreduce.reduce.shuffle.read.timeout                180000 REDUCE任务等待map输出数据的总耗时是3分钟 38 mapred.task.timeout                                  600000 如果任务无读无写时的时间耗时为10分钟,将被终止 39 mapred.tasktracker.map.tasks.maximum                2    任管管理器可同时运行map任务数为2 40 mapred.tasktracker.reduce.tasks.maximum             2    任管管理器可同时运行reduce任务数为2 41 mapred.jobtracker.completeuserjobs.maximum 100    当用户的完成作业数达100个后,将其放入作业历史文件中 42 mapreduce.reduce.input.limit                -1      Reduce输入量的限制。 43 mapred.job.tracker.retiredjobs.cache.size   1000    作业状态为已不在执行的保留在内存中的量为1000 44 mapred.job.tracker.jobhistory.lru.cache.size 5       作业历史文件装载到内存的数量 45 mapred.child.java.opts                      -Xmx200m 启动task管理的子进程时的内存设置 46 mapred.child.env                              子进程的参数设置 47 mapred.child.ulimit                           虚拟机所需内存的设定。 48 mapred.cluster.map.memory.mb                -1        49 mapred.cluster.reduce.memory.mb             -1        50 mapred.cluster.max.map.memory.mb            -1        51 mapred.cluster.max.reduce.memory.mb         -1        52 mapred.job.map.memory.mb                   -1        53 mapred.job.reduce.memory.mb                -1        54 mapred.child.tmp                            /tmp    Mr任务信息的存放目录 55 mapred.inmem.merge.threshold                1000    内存中的合并文件数设置 56 mapred.job.shuffle.merge.percent            0.66      57 mapred.job.shuffle.input.buffer.percent    0.70      58 mapred.job.reduce.input.buffer.percent      0.0      59 mapred.map.tasks.speculative.execution      true    Map任务的多实例并行运行标识 60 mapred.reduce.tasks.speculative.execution   true    Reduce任务的多实例并行运行标识 61 mapred.job.reuse.jvm.num.tasks 1            每虚拟机运行的任务数 62 mapred.min.split.size 0            Map的输入数据被分解的块数设置 63 mapred.jobtracker.maxtasks.per.job -1          一个单独作业的任务数设置 64 mapred.submit.replication 10          提交作业文件的复制级别 65 mapred.tasktracker.dns.interface default      任务管理跟踪器是否报告IP地址名的开关 66 mapred.tasktracker.dns.nameserver default      作业和任务管理跟踪器之间通讯方式采用的DNS服务的主机名或IP地址 67 tasktracker.http.threads 40          http服务器的工作线程数量 68 mapred.task.tracker.http.address 0.0.0.0:50060 任务管理跟踪器的http服务器的地址和端口 69 keep.failed.task.files false       失败任务是否保存到文件中 70 mapred.output.compress false       作业的输出是否压缩 71 mapred.output.compression.type RECORD       作业输出采用NONE, RECORD or BLOCK三种方式中一种压缩的写入到流式文件 72 mapred.output.compression.codec org.apache.hadoop.io.compress.DefaultCodec 压缩类的设置 73 mapred.compress.map.output false                                     Map的输出是否压缩 74 mapred.map.output.compression.codec org.apache.hadoop.io.compress.DefaultCodec Map的输出压缩的实现类指定 75 map.sort.class org.apache.hadoop.util.QuickSort          排序键的排序类指定 76 mapred.userlog.limit.kb 0                                        每个任务的用户日志文件大小 77 mapred.userlog.retain.hours 24                                        作业完成后的用户日志留存时间为24小时 78 mapred.user.jobconf.limit 5242880                                  Jobconf的大小为5M 79 mapred.hosts   可与作业管理跟踪器连接的主机名 80 mapred.hosts.exclude   不可与作业管理跟踪器连接的主机名 81 mapred.heartbeats.in.second                     100                作业管理跟踪器的每秒中到达的心跳数量为100 82 mapred.max.tracker.blacklists                   4                   任务管理跟踪器的黑名单列表的数量 83 mapred.jobtracker.blacklist.fault-timeout-window 180                任务管理跟踪器超时180分钟则訪任务将被重启 84 mapred.jobtracker.blacklist.fault-bucket-width 15                    85 mapred.max.tracker.failures                     4                   任务管理跟踪器的失败任务数设定 86 jobclient.output.filter                         FAILED             控制任务的用户日志输出到作业端时的过滤方式 87 mapred.job.tracker.persist.jobstatus.active    false               是否持久化作业管理跟踪器的信息 88 mapred.job.tracker.persist.jobstatus.hours      0                   持久化作业管理跟踪器的信息的保存时间 89 mapred.job.tracker.persist.jobstatus.dir       /jobtracker/jobsInfo 作业管理跟踪器的信息存放目录 90 mapreduce.job.complete.cancel.delegation.tokens true                恢复时是否变更领牌    91 mapred.task.profile                            false               任务分析信息是否建设标志 92 mapred.task.profile.maps                        0-2                设置map任务的分析范围 93 mapred.task.profile.reduces                     0-2                设置reduce任务的分析范围 94 mapred.line.input.format.linespermap            1                   每次切分的行数设置 95 mapred.skip.attempts.to.start.skipping          2                   在跳转模式未被设定的情况下任务的重试次数                                                                                     96 mapred.skip.map.auto.incr.proc.count            true                MapRunner在调用map功能后的增量处理方式设置 97 mapred.skip.reduce.auto.incr.proc.count         true                在调用reduce功能后的增量处理方式设置 98 mapred.skip.out.dir                                跳过记录的输出目录 99 mapred.skip.map.max.skip.records                0                     100 mapred.skip.reduce.max.skip.groups             0                     101 job.end.retry.attempts                         0                   Hadoop偿试连接通知器的次数   102 job.end.retry.interval                         30000               通知偿试回应的间隔操作为30秒 103 hadoop.rpc.socket.factory.class.JobSubmissionProtocol   指定与作业跟踪管理器的通讯方式,缺省是采用rpc方式 104 mapred.task.cache.levels                            2      任务缓存级别设置 105 mapred.queue.names                                  default 分隔作业队例的分隔符设定 106 mapred.acls.enabled                                  false 指定ACL访问控制列表 107 mapred.queue.default.state                            RUNNING 定义队列的状态 108 mapred.job.queue.name                               default 已提交作业的队列设定 109 mapreduce.job.acl-modify-job                           指定可修改作业的ACL列表 110 mapreduce.job.acl-view-job                             指定可浏临作业的ACL列表 111 mapred.tasktracker.indexcache.mb                     10    任务管理跟踪器的索引内存的最大容器 112 mapred.combine.recordsBeforeProgress                10000 在聚合处理时的记录块数 113 mapred.merge.recordsBeforeProgress                   10000 在汇总处理时的记录块数 114 mapred.reduce.slowstart.completed.maps               0.05     115 mapred.task.tracker.task-controller                  org.apache.hadoop.mapred.DefaultTaskController 任务管理器的设定 116 mapreduce.tasktracker.group                             任务管理器的组成员设定 117 mapred.healthChecker.script.path                       脚本的绝对路径指定,这些脚本是心跳服务的 118 mapred.healthChecker.interval                        60000                                        节点心跳信息的间隔 119 mapred.healthChecker.script.timeout                  600000                                          120 mapred.healthChecker.script.args                       参数列表 121 mapreduce.job.counters.limit                         120                                           作业计数器的最小值

大数据课程推荐:

配置hadoop,主要是配置core-site.xml,hdfs-site.xml,mapred-site.xml三个配置文件,默认下来,这些配置文件都是空的,所以很难知道这些配置文件有哪些配置可以生效,上网找的配置可能因为各个hadoop版本不同,导致无法生效。浏览更多的配置,有两个方法: 1.选择相应版本的hadoop,下载解压后,搜索*.xml,找到core-default.xml,hdfs-default.xml,mapred-default.xml,这些就是默认配置,可以参考这些配置的说明和key,配置hadoop集群。 2.浏览apache官网,三个配置文件链接如下:     http://hadoop.apache.org/common/docs/current/core-default.html     http://hadoop.apache.org/common/docs/current/hdfs-default.html     http://hadoop.apache.org/common/docs/current/mapred-default.html    这里是浏览hadoop当前版本号的默认配置文件,其他版本号,要另外去官网找。其中第一个方法找到默认的配置是最好的,因为每个属性都有说明,可以直接使用。另外,core-site.xml是全局配置,hdfs-site.xml和mapred-site.xml分别是hdfs和mapred的局部配置。     2       常用的端口配置2.1  HDFS端口 参数 描述 默认 配置文件 例子值 fs.default.name namenode namenode RPC交互端口 8020 core-site.xml hdfs://master:8020/ dfs.http.address NameNode web管理端口 50070 hdfs- site.xml 0.0.0.0:50070 dfs.datanode.address datanode 控制端口 50010 hdfs -site.xml 0.0.0.0:50010 dfs.datanode.ipc.address datanode的RPC服务器地址和端口 50020 hdfs-site.xml 0.0.0.0:50020 dfs.datanode.http.address datanode的HTTP服务器和端口 50075 hdfs-site.xml 0.0.0.0:50075 2.2  MR端口 参数 描述 默认 配置文件 例子值 mapred.job.tracker job-tracker交互端口 8021 mapred-site.xml hdfs://master:8021/ job tracker的web管理端口 50030 mapred-site.xml 0.0.0.0:50030 mapred.task.tracker.http.address task-tracker的HTTP端口 50060 mapred-site.xml 0.0.0.0:50060 2.3  其它端口 参数 描述 默认 配置文件 例子值 dfs.secondary.http.address secondary NameNode web管理端口 50090 hdfs-site.xml 0.0.0.0:50090            3       三个缺省配置参考文件说明3.1  core-default.html 序号 参数名 参数值 参数说明 1 hadoop.tmp.dir                      /tmp/hadoop-${user.name}                              临时目录设定 2 hadoop.native.lib                   true                                                 使用本地hadoop库标识。 3 hadoop.http.filter.initializers      http服务器过滤链设置                         4 hadoop.security.group.mapping       org.apache.hadoop.security.ShellBasedUnixGroupsMapping 组内用户的列表的类设定 5 hadoop.security.authorization       false                                                 服务端认证开启 6 hadoop.security.authentication      simple                                                 无认证或认证设置 7 hadoop.security.token.service.use_ip true                                                 是否开启使用IP地址作为连接的开关 8 hadoop.logfile.size                10000000                                              日志文件最大为10M 9 hadoop.logfile.count 10                                                    日志文件数量为10个 10 io.file.buffer.size 4096 流文件的缓冲区为4K 11 io.bytes.per.checksum 512 校验位数为512字节 12 io.skip.checksum.errors false 校验出错后是抛出异常还是略过标识。True则略过。 13 io.compression.codecs org.apache.hadoop.io.compress.DefaultCodec, org.apache.hadoop.io.compress.GzipCodec, org.apache.hadoop.io.compress.BZip2Codec, org.apache.hadoop.io.compress.SnappyCodec 压缩和解压的方式设置 14 io.serializations org.apache.hadoop.io.serializer.WritableSerialization 序例化和反序列化的类设定 15 fs.default.name file:///                                             缺省的文件URI标识设定。 16 fs.trash.interval 0                                                    文件废弃标识设定,0为禁止此功能 17 fs.file.impl org.apache.hadoop.fs.LocalFileSystem                本地文件操作类设置 18 fs.hdfs.impl org.apache.hadoop.hdfs.DistributedFileSystem         HDFS文件操作类设置 19 fs.s3.impl org.apache.hadoop.fs.s3.S3FileSystem                S3文件操作类设置 20 fs.s3n.impl             org.apache.hadoop.fs.s3native.NativeS3FileSystem S3文件本地操作类设置 21 fs.kfs.impl             org.apache.hadoop.fs.kfs.KosmosFileSystem KFS文件操作类设置. 22 fs.hftp.impl             org.apache.hadoop.hdfs.HftpFileSystem HTTP方式操作文件设置 23 fs.hsftp.impl            org.apache.hadoop.hdfs.HsftpFileSystem HTTPS方式操作文件设置 24 fs.webhdfs.impl          org.apache.hadoop.hdfs.web.WebHdfsFileSystem WEB方式操作文件类设置 25 fs.ftp.impl             org.apache.hadoop.fs.ftp.FTPFileSystem FTP文件操作类设置 26 fs.ramfs.impl            org.apache.hadoop.fs.InMemoryFileSystem 内存文件操作类设置 27 fs.har.impl             org.apache.hadoop.fs.HarFileSystem 压缩文件操作类设置. 28 fs.har.impl.disable.cache true 是否缓存har文件的标识设定 29 fs.checkpoint.dir       ${hadoop.tmp.dir}/dfs/namesecondary 备份名称节点的存放目前录设置 30 fs.checkpoint.edits.dir      ${fs.checkpoint.dir} 备份名称节点日志文件的存放目前录设置 31 fs.checkpoint.period         3600 动态检查的间隔时间设置 32 fs.checkpoint.size          67108864 日志文件大小为64M 33 fs.s3.block.size             67108864 写S3文件系统的块的大小为64M 34 fs.s3.buffer.dir             ${hadoop.tmp.dir}/s3 S3文件数据的本地存放目录 35 fs.s3.maxRetries             4 S3文件数据的偿试读写次数 36 fs.s3.sleepTimeSeconds       10 S3文件偿试的间隔 37 local.cache.size             10737418240 缓存大小设置为10GB 38 io.seqfile.compress.blocksize 1000000 压缩流式文件中的最小块数为100万 39 io.seqfile.lazydecompress    true 块是否需要压缩标识设定 40 io.seqfile.sorter.recordlimit 1000000 内存中排序记录块类最小为100万 41 io.mapfile.bloom.size 1048576 BloomMapFiler过滤量为1M 42 io.mapfile.bloom.error.rate 0.005   43 hadoop.util.hash.type murmur 缺少hash方法为murmur 44 ipc.client.idlethreshold 4000 连接数据最小阀值为4000 45 ipc.client.kill.max 10 一个客户端连接数最大值为10 46 ipc.client.connection.maxidletime 10000 断开与服务器连接的时间最大为10秒 47 ipc.client.connect.max.retries 10 建立与服务器连接的重试次数为10次 48 ipc.server.listen.queue.size 128 接收客户连接的监听队例的长度为128 49 ipc.server.tcpnodelay false 开启或关闭服务器端TCP连接算法 50 ipc.client.tcpnodelay false 开启或关闭客户端TCP连接算法 51 webinterface.private.actions false Web交互的行为设定 52 hadoop.rpc.socket.factory.class.default       org.apache.hadoop.net.StandardSocketFactory 缺省的socket工厂类设置 53 hadoop.rpc.socket.factory.class.ClientProtocol   与dfs连接时的缺省socket工厂类 54 hadoop.socks.server                             服务端的工厂类缺省设置为SocksSocketFactory. 55 topology.node.switch.mapping.impl             org.apache.hadoop.net.ScriptBasedMapping   56 topology.script.file.name                        57 topology.script.number.args                   100 参数数量最多为100 58 hadoop.security.uid.cache.secs                14400   3.2  hdfs-default.html 序号 参数名 参数值 参数说明 1 dfs.namenode.logging.level       info          输出日志类型 2 dfs.secondary.http.address       0.0.0.0:50090 备份名称节点的http协议访问地址与端口                                                                                     3 dfs.datanode.address             0.0.0.0:50010 数据节点的TCP管理服务地址和端口 4 dfs.datanode.http.address         0.0.0.0:50075 数据节点的HTTP协议访问地址和端口 5 dfs.datanode.ipc.address          0.0.0.0:50020 数据节点的IPC服务访问地址和端口 6 dfs.datanode.handler.count       3             数据节点的服务连接处理线程数 7 dfs.http.address                  0.0.0.0:50070 名称节点的http协议访问地址与端口 8 dfs.https.enable                  false         支持https访问方式标识 9 dfs.https.need.client.auth       false         客户端指定https访问标识 10 dfs.https.server.keystore.resource ssl-server.xml Ssl密钥服务端的配置文件 11 dfs.https.client.keystore.resource ssl-client.xml Ssl密钥客户端的配置文件 12 dfs.datanode.https.address       0.0.0.0:50475 数据节点的HTTPS协议访问地址和端口 13 dfs.https.address                0.0.0.0:50470 名称节点的HTTPS协议访问地址和端口 14 dfs.datanode.dns.interface       default       数据节点采用IP地址标识 15 dfs.datanode.dns.nameserver       default       指定DNS的IP地址 16 dfs.replication.considerLoad      true          加载目标或不加载的标识 17 dfs.default.chunk.view.size       32768          浏览时的文件块大小设置为32K 18 dfs.datanode.du.reserved          0             每个卷预留的空闲空间数量 19 dfs.name.dir                      ${hadoop.tmp.dir}/dfs/name 存贮在本地的名字节点数据镜象的目录,作为名字节点的冗余备份 20 dfs.name.edits.dir                ${dfs.name.dir}          存贮文件操作过程信息的存贮目录 21 dfs.web.ugi                      webuser,webgroup          Web接口访问的用户名和组的帐户设定 22 dfs.permissions                   true                      文件操作时的权限检查标识。 23 dfs.permissions.supergroup       supergroup                超级用户的组名定义 24 dfs.block.access.token.enable    false                     数据节点访问令牌标识 25 dfs.block.access.key.update.interval 600                      升级访问钥时的间隔时间 26 dfs.block.access.token.lifetime    600                      访问令牌的有效时间 27 dfs.data.dir                         ${hadoop.tmp.dir}/dfs/data 数据节点的块本地存放目录 28 dfs.datanode.data.dir.perm          755                      数据节点的存贮块的目录访问权限设置 29 dfs.replication                     3                         缺省的块复制数量 30 dfs.replication.max                  512                      块复制的最大数量 31 dfs.replication.min                1                         块复制的最小数量 32 dfs.block.size                      67108864                  缺省的文件块大小为64M 33 dfs.df.interval                     60000                      磁盘空间统计间隔为6秒 34 dfs.client.block.write.retries      3                         块写入出错时的重试次数 35 dfs.blockreport.intervalMsec       3600000                   块的报告间隔时为1小时 36 dfs.blockreport.initialDelay       0                         块顺序报告的间隔时间 37 dfs.heartbeat.interval             3                         数据节点的心跳检测间隔时间 38 dfs.namenode.handler.count          10                        名称节点的连接处理的线程数量 39 dfs.safemode.threshold.pct          0.999f                   启动安全模式的阀值设定 40 dfs.safemode.extension             30000                     当阀值达到量值后扩展的时限 41 dfs.balance.bandwidthPerSec         1048576                   启动负载均衡的数据节点可利用带宽最大值为1M 42 dfs.hosts                             可与名称节点连接的主机地址文件指定。 43 dfs.hosts.exclude                     不充计与名称节点连接的主机地址文件设定 44 dfs.max.objects                     0 文件数、目录数、块数的最大数量 45 dfs.namenode.decommission.interval 30 名称节点解除命令执行时的监测时间周期 46 dfs.namenode.decommission.nodes.per.interval 5       名称节点解除命令执行是否完检测次数 47 dfs.replication.interval                   3       名称节点计算数据节点的复制工作的周期数. 48 dfs.access.time.precision                   3600000 充许访问文件的时间精确到1小时 49 dfs.support.append                         false    是否充许链接文件指定 50 dfs.namenode.delegation.key.update-interval 86400000 名称节点上的代理令牌的主key的更新间隔时间为24小时 51 dfs.namenode.delegation.token.max-lifetime 604800000 代理令牌的有效时间最大值为7天 52 dfs.namenode.delegation.token.renew-interval 86400000 代理令牌的更新时间为24小时 53 dfs.datanode.failed.volumes.tolerated       0       决定停止数据节点提供服务充许卷的出错次数。0次则任何卷出错都要停止数据节点 3.3  mapred-default.html 序号 参数名 参数值 参数说明 1 hadoop.job.history.location   作业跟踪管理器的静态历史文件的存放目录。 2 hadoop.job.history.user.location   可以指定具体某个作业的跟踪管理器的历史文件存放目录 3 mapred.job.tracker.history.completed.location   已完成作业的历史文件的存放目录 4 io.sort.factor 10          排完序的文件的合并时的打开文件句柄数 5 io.sort.mb 100         排序文件的内存缓存大小为100M 6 io.sort.record.percent 0.05       排序线程阻塞的内存缓存剩余比率 7 io.sort.spill.percent 0.80       当缓冲占用量为该值时,线程需要将内容先备份到磁盘中。 8 io.map.index.skip 0          索引条目的间隔设定 9 mapred.job.tracker local       作业跟踪管理器是否和MR任务在一个进程中 10 mapred.job.tracker.http.address 0.0.0.0:50030 作业跟踪管理器的HTTP服务器访问端口和地址 11 mapred.job.tracker.handler.count          10         作业跟踪管理器的管理线程数,线程数比例是任务管理跟踪器数量的0.04 12 mapred.task.tracker.report.address         127.0.0.1:0 任务管理跟踪器的主机地址和端口地址 13 mapred.local.dir                           ${hadoop.tmp.dir}/mapred/local MR的中介数据文件存放目录 14 mapred.system.dir                         ${hadoop.tmp.dir}/mapred/system MR的控制文件存放目录 15 mapreduce.jobtracker.staging.root.dir      ${hadoop.tmp.dir}/mapred/staging 每个正在运行作业文件的存放区 16 mapred.temp.dir                            ${hadoop.tmp.dir}/mapred/temp   MR临时共享文件存放区    17 mapred.local.dir.minspacestart             0                               MR本地中介文件删除时,不充许有任务执行的数量值。 18 mapred.local.dir.minspacekill             0                               MR本地中介文件删除时,除非所有任务都已完成的数量值。 19 mapred.tasktracker.expiry.interval         600000                         任务管理跟踪器不发送心跳的累计时间间隔超过600秒,则任务管理跟踪器失效 20 mapred.tasktracker.resourcecalculatorplugin   指定的一个用户访问资源信息的类实例 21 mapred.tasktracker.taskmemorymanager.monitoring-interval 5000    监控任务管理跟踪器任务内存使用率的时间间隔 22 mapred.tasktracker.tasks.sleeptime-before-sigkill       5000    发出进程终止后,间隔5秒后发出进程消亡信号 23 mapred.map.tasks                                        2       每个作业缺省的map任务数为2 24 mapred.reduce.tasks                                     1       每个作业缺省的reduce任务数为1 25 mapreduce.tasktracker.outofband.heartbeat               false   让在任务结束后发出一个额外的心跳信号 26 mapreduce.tasktracker.outofband.heartbeat.damper       1000000 当额外心跳信号发出量太多时,则适当阻止 27 mapred.jobtracker.restart.recover                      false   充许任务管理器恢复时采用的方式 28 mapred.jobtracker.job.history.block.size                3145728 作业历史文件块的大小为3M 29 mapreduce.job.split.metainfo.maxsize                   10000000 分隔元信息文件的最大值是10M以下 30 mapred.jobtracker.taskScheduler                      org.apache.hadoop.mapred.JobQueueTaskScheduler 设定任务的执行计划实现类 31 mapred.jobtracker.taskScheduler.maxRunningTasksPerJob   作业同时运行的任务数的最大值 32 mapred.map.max.attempts                              4    Map任务的重试次数 33 mapred.reduce.max.attempts                           4    Reduce任务的重试次数 34 mapred.reduce.parallel.copies                         5    在复制阶段时reduce并行传送的值。 35 mapreduce.reduce.shuffle.maxfetchfailures            10    取map输出的最大重试次数 36 mapreduce.reduce.shuffle.connect.timeout             180000 REDUCE任务连接任务管理器获得map输出时的总耗时是3分钟          37 mapreduce.reduce.shuffle.read.timeout                180000 REDUCE任务等待map输出数据的总耗时是3分钟 38 mapred.task.timeout                                  600000 如果任务无读无写时的时间耗时为10分钟,将被终止 39 mapred.tasktracker.map.tasks.maximum                2    任管管理器可同时运行map任务数为2 40 mapred.tasktracker.reduce.tasks.maximum             2    任管管理器可同时运行reduce任务数为2 41 mapred.jobtracker.completeuserjobs.maximum 100    当用户的完成作业数达100个后,将其放入作业历史文件中 42 mapreduce.reduce.input.limit                -1      Reduce输入量的限制。 43 mapred.job.tracker.retiredjobs.cache.size   1000    作业状态为已不在执行的保留在内存中的量为1000 44 mapred.job.tracker.jobhistory.lru.cache.size 5       作业历史文件装载到内存的数量 45 mapred.child.java.opts                      -Xmx200m 启动task管理的子进程时的内存设置 46 mapred.child.env                              子进程的参数设置 47 mapred.child.ulimit                           虚拟机所需内存的设定。 48 mapred.cluster.map.memory.mb                -1        49 mapred.cluster.reduce.memory.mb             -1        50 mapred.cluster.max.map.memory.mb            -1        51 mapred.cluster.max.reduce.memory.mb         -1        52 mapred.job.map.memory.mb                   -1        53 mapred.job.reduce.memory.mb                -1        54 mapred.child.tmp                            /tmp    Mr任务信息的存放目录 55 mapred.inmem.merge.threshold                1000    内存中的合并文件数设置 56 mapred.job.shuffle.merge.percent            0.66      57 mapred.job.shuffle.input.buffer.percent    0.70      58 mapred.job.reduce.input.buffer.percent      0.0      59 mapred.map.tasks.speculative.execution      true    Map任务的多实例并行运行标识 60 mapred.reduce.tasks.speculative.execution   true    Reduce任务的多实例并行运行标识 61 mapred.job.reuse.jvm.num.tasks 1            每虚拟机运行的任务数 62 mapred.min.split.size 0            Map的输入数据被分解的块数设置 63 mapred.jobtracker.maxtasks.per.job -1          一个单独作业的任务数设置 64 mapred.submit.replication 10          提交作业文件的复制级别 65 mapred.tasktracker.dns.interface default      任务管理跟踪器是否报告IP地址名的开关 66 mapred.tasktracker.dns.nameserver default      作业和任务管理跟踪器之间通讯方式采用的DNS服务的主机名或IP地址 67 tasktracker.http.threads 40          http服务器的工作线程数量 68 mapred.task.tracker.http.address 0.0.0.0:50060 任务管理跟踪器的http服务器的地址和端口 69 keep.failed.task.files false       失败任务是否保存到文件中 70 mapred.output.compress false       作业的输出是否压缩 71 mapred.output.compression.type RECORD       作业输出采用NONE, RECORD or BLOCK三种方式中一种压缩的写入到流式文件 72 mapred.output.compression.codec org.apache.hadoop.io.compress.DefaultCodec 压缩类的设置 73 mapred.compress.map.output false                                     Map的输出是否压缩 74 mapred.map.output.compression.codec org.apache.hadoop.io.compress.DefaultCodec Map的输出压缩的实现类指定 75 map.sort.class org.apache.hadoop.util.QuickSort          排序键的排序类指定 76 mapred.userlog.limit.kb 0                                        每个任务的用户日志文件大小 77 mapred.userlog.retain.hours 24                                        作业完成后的用户日志留存时间为24小时 78 mapred.user.jobconf.limit 5242880                                  Jobconf的大小为5M 79 mapred.hosts   可与作业管理跟踪器连接的主机名 80 mapred.hosts.exclude   不可与作业管理跟踪器连接的主机名 81 mapred.heartbeats.in.second                     100                作业管理跟踪器的每秒中到达的心跳数量为100 82 mapred.max.tracker.blacklists                   4                   任务管理跟踪器的黑名单列表的数量 83 mapred.jobtracker.blacklist.fault-timeout-window 180                任务管理跟踪器超时180分钟则訪任务将被重启 84 mapred.jobtracker.blacklist.fault-bucket-width 15                    85 mapred.max.tracker.failures                     4                   任务管理跟踪器的失败任务数设定 86 jobclient.output.filter                         FAILED             控制任务的用户日志输出到作业端时的过滤方式 87 mapred.job.tracker.persist.jobstatus.active    false               是否持久化作业管理跟踪器的信息 88 mapred.job.tracker.persist.jobstatus.hours      0                   持久化作业管理跟踪器的信息的保存时间 89 mapred.job.tracker.persist.jobstatus.dir       /jobtracker/jobsInfo 作业管理跟踪器的信息存放目录 90 mapreduce.job.complete.cancel.delegation.tokens true                恢复时是否变更领牌    91 mapred.task.profile                            false               任务分析信息是否建设标志 92 mapred.task.profile.maps                        0-2                设置map任务的分析范围 93 mapred.task.profile.reduces                     0-2                设置reduce任务的分析范围 94 mapred.line.input.format.linespermap            1                   每次切分的行数设置 95 mapred.skip.attempts.to.start.skipping          2                   在跳转模式未被设定的情况下任务的重试次数                                                                                     96 mapred.skip.map.auto.incr.proc.count            true                MapRunner在调用map功能后的增量处理方式设置 97 mapred.skip.reduce.auto.incr.proc.count         true                在调用reduce功能后的增量处理方式设置 98 mapred.skip.out.dir                                跳过记录的输出目录 99 mapred.skip.map.max.skip.records                0                     100 mapred.skip.reduce.max.skip.groups             0                     101 job.end.retry.attempts                         0                   Hadoop偿试连接通知器的次数   102 job.end.retry.interval                         30000               通知偿试回应的间隔操作为30秒 103 hadoop.rpc.socket.factory.class.JobSubmissionProtocol   指定与作业跟踪管理器的通讯方式,缺省是采用rpc方式 104 mapred.task.cache.levels                            2      任务缓存级别设置 105 mapred.queue.names                                  default 分隔作业队例的分隔符设定 106 mapred.acls.enabled                                  false 指定ACL访问控制列表 107 mapred.queue.default.state                            RUNNING 定义队列的状态 108 mapred.job.queue.name                               default 已提交作业的队列设定 109 mapreduce.job.acl-modify-job                           指定可修改作业的ACL列表 110 mapreduce.job.acl-view-job                             指定可浏临作业的ACL列表 111 mapred.tasktracker.indexcache.mb                     10    任务管理跟踪器的索引内存的最大容器 112 mapred.combine.recordsBeforeProgress                10000 在聚合处理时的记录块数 113 mapred.merge.recordsBeforeProgress                   10000 在汇总处理时的记录块数 114 mapred.reduce.slowstart.completed.maps               0.05     115 mapred.task.tracker.task-controller                  org.apache.hadoop.mapred.DefaultTaskController 任务管理器的设定 116 mapreduce.tasktracker.group                             任务管理器的组成员设定 117 mapred.healthChecker.script.path                       脚本的绝对路径指定,这些脚本是心跳服务的 118 mapred.healthChecker.interval                        60000                                        节点心跳信息的间隔 119 mapred.healthChecker.script.timeout                  600000                                          120 mapred.healthChecker.script.args                       参数列表 121 mapreduce.job.counters.limit                         120                                           作业计数器的最小值
转载请注明原文地址: https://www.6miu.com/read-2603294.html

最新回复(0)