下面哪个程序负责 hdfs 数据存储 负责“hdfs”和“数据存储”的程序是HDFS。Hadoop分布式文件来系统(HDFS)被设计成适合运行在通用硬件(commodityhardware)上的分布式文件系统。它和现有的分布式文件源系统有很多共同点。但同时,它和其他的分布式文件系统的区百别也是很明显的。HDFS是一个高度容错性的系统,适合部署在廉价的机器上。运行在HDFS之上的程序有很大量的数据集。典型的HDFS文件大小是GB到TB的级别。所以,HDFS被调整成支持大文件。它应该提供很高的聚合数据带宽,一个集群中支持数百个节点,一个集群中还应该支持千万级别的文件。大部分的HDFS程序对文件操作需要的是一次写多次读取的操作模式。一个文件一旦创建、写入、关闭之后就不需要修改了。度这个假定简单化了数据一致的问题和并使高吞吐量的数据访问变得可能。一个Map-Reduce程序或者网络爬虫程序都可以完美地适合这个模型。
关于hdfs的物理存储路径问题 我没用过Hive,但HDFS的存储机制都是一样的。你所谓的物理位置指的是在操作系统中的磁盘路径?这个路径是在Hadoop配置的时候写在hdfs-site.xml文件的dfs.datanode.data.dir字段里的,在每个datanode的这个文件夹里存着该节点上存储的所有数据块block,以blk_打头。dfs.namenode.data.dir指定的文件夹在namenode中则存在元数据。所以即便你知道这个所谓的物理路径也没什么用,数据都是以block形式存在的,大的数据还由好多个block组成,而且每个block还有副本。
大数据中数据存放在是datanode节点,那Hdfs目录的作用是什么呢? https://scholar.uulucky.com 1 人赞同了该回答 Datanode是文件系统的工作节点,他们根据客户端或者是namenode的调度存储和检索数据,并且定期向namenode发送他们所存储的。