hadoop
hadoop
hadoop = common+hdfs+mapreduce+yarn
common
工具、rpc通信
hdfs
分布式文件系统,一个文件分成多个128Mb的文件,存储在多个节点,为了保证分区容错性,存有备份,默认为3。主从架构。
namenode
用来记录各个文件的block的编号、各个block的位置、抽象目录树
处理读写请求
可以有多个namenode
secondarynamenode
用来备份namenode,当namenode宕机的时候,帮助namenode恢复
datanode
用来储存数据
副本机制
如果一个datanode挂了,就再开一个datanode,然后吧挂了的数据通过备份推出来存进去,如果之前那个挂了的又活了,则选择一个节点删掉。副本过多将导致维护成本提高
优点
- 可构建在廉价机器上
- 高容错性 : 自动恢复
缺点
- 不支持数据修改(尽管支持改名和删除)
- 延迟高
- 不擅长存储小文件,寻址时间长,空间利用低
yarn
资源调度、管理框架
- resourcemanager 统筹资源
- nodemanager 资源调度
mapreduce
分布式计算框架
本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来自 Believe it!