为什么Hadoop的logs目录下的hadoop-root-namenode-Master.log文件可以达到10个G [root@localhost hadoop-1.0.3]#chown-R root:123456/usr/hadooproot为当前登录用户名,123456:为登录密码其中:cat conf/core-site.xmlxml version=\"1.0?xml-stylesheet type=\"text/xsl\"href=\"configuration.xsl?Put site-specific property overrides in this file.->;hadoop.tmp.dirusr/hadoopfs.default.namehdfs:/192.168.0.109:90002、DataNode不能启动:在客户端日志显示 namenode namespaceID=1713611278;datanode namespaceID=596511341这个问题基本上是因为在namenode端多次运行hadoop namenode –format 导致的。在hadoop的core-site.xml文件中(不同的hadoop版本名字会有不同)找到<;name>;hadoop.tmp.dir,清空对应的文件夹。举例:[hadoop@hadoop-datanode1 hadoop]$cat core-site.xml?xml version=\"1.0?xml-stylesheet type=\"text/xsl\"href=\"configuration.xsl?Put site-specific property overrides in this file.->;。global properties->;<;property>;<;name>;hadoop.tmp.dir<;/name>;<;value>;/usr/hadoop/tmp<;/value>;<;/property>;[hadoop@hadoop-datanode1 tmp]$rm-rf/usr/hadoop/tmp/*然后重新启动。
Hadoop hadoop.tmp.dir 配置的目录下数据可以删除吗? 不可以随意删。Hadoop的HDFS、MapReduce、Yarn(Spark、MR作业的shuffle)的很多配置路径默认是依赖该参数的值,删除后很可能会影响HDFS(元数据、数据)、Yarn的作业,最好是看下hdfs-site yarn-site 等xml文件中对该参数的依赖。
hadoop 文件需要多大namenode才会让数据分布到不同的节点上计算? hadoop上的计算时间=hadoop框架自身耗时+数据单机处理时间/计算并发度。其中,hadoop框架自身耗时大约在10s左右,如果参数设置的不好,可能会比较长,不过最多估计也就半分钟左右。计算并发度取决于两个因素:1.数据占用的分块数取决于你的文件在hadoop上存放时设置的块大小,默认是64M,你看一下是不是这么大,分块数量=文件大小/块大小。2.hadoop设置的最大并行任务数,你看一下jobtracker上运行时某个时刻running状态的task数量就是了,通常这个值是比较稳定的。分布式环境比较复杂,如果上边的信息还不够,就得咨询一下管理员了。