Hadoop核心组件之HDFS-白红宇

Hadoop核心组件之HDFS

阅读量：5750 次

发布时间：2019-06-18

本文共 1973 字，大约阅读时间需要 6 分钟。

HDFS：分布式文件系统

一句话总结

一个文件先被拆分为多个Block块（会有Block-ID：方便读取数据），以及每个Block是有几个副本的形式存储

1个文件会被拆分成多个Block

blocksize：128M（Hadoop2.0以后默认的块大小，可以自定义配置）

130M ==> 2个Block： 128M 和 2M

HDFS设计目标

巨大的分布式文件系统

满足大数据场景基本数据存储的要求

廉价的机器上

当你的存储空间不够，你可以水平横向扩展机器方式提高

HDFS架构

NameNode + N个DataNode

典型的主从架构，即：

1 Master(NameNode/NN) 带 N个Slaves(DataNode/DN)

建议：NN和DN是部署在不同的节点上

PS：
常见的主从架构还有：HDFS/YARN/HBase
主从架构一个难题就是：如何保证HA的问题，很多时候会使用Zookeeper来配置使用

NameNode/NN:主节点Master

1）负责客户端请求的响应

2）负责元数据（文件的名称、副本系数、Block存放的DN）的管理

DataNode/DN：从节点Slaves

1）存储用户的文件对应的数据块(Block)

2）要定期向NN发送心跳信息，汇报本身及其所有的block信息，健康状况

HDFS副本机制

replication factor：副本系数、副本因子

一个大的文件会被拆分为许多块，最终以多副本的方式存储在多个节点上

一个文件，除了最后一个，其余所有块的大小都是一致的

问题：那么如何为每个Block选择存储在哪些节点上呢？

Rack代表的是机架：一般三份副本分别是这样存储的

第一份副本：存储在当前提交存储的机架中当前节点上

第二份副本：存储在非当前机架上的某一节点上

第三份副本：和第二副本统一机架的不同节点之上

建议：生产只能够，起码划分两个及其以上的机架

HDFS Shell

Usage: hdfs dfs [COMMAND [COMMAND_OPTIONS]]

hadoop fs -ls / 等价 hdfs dfs -ls /

[root@hadoop000 data]# lshadoop-tmp  hello.txt上传： [root@hadoop000 data]# hadoop fs -put hello.txt /下载：[root@hadoop000 data]# hadoop fs -get /test/a/b/h.txt查看内容：[root@hadoop000 data]# hadoop fs -text /hello.txt[root@hadoop000 data]# hadoop fs -cat /hello.txt建立目录;[root@hadoop000 data]# hadoop fs -mkdir /test创建递归的目录[root@hadoop000 data]# hadoop fs -mkdir -p /test/a/b递归展示目录文件：[root@hadoop000 data]# hadoop fs -ls -R /本地拷贝到hdfs:[root@hadoop000 data]# hadoop fs -copyFromLocal hello.txt /test/a/b/h.txt删除文件：[root@hadoop000 data]# hadoop fs -rm /hello.txt递归删除文件夹：[root@hadoop000 data]# hadoop fs -rm -R /test