hadoop


hadoop

hadoop = common+hdfs+mapreduce+yarn

common

工具、rpc通信

hdfs

分布式文件系统,一个文件分成多个128Mb的文件,存储在多个节点,为了保证分区容错性,存有备份,默认为3。主从架构。

namenode

用来记录各个文件的block的编号、各个block的位置、抽象目录树

处理读写请求

可以有多个namenode

secondarynamenode

用来备份namenode,当namenode宕机的时候,帮助namenode恢复

datanode

用来储存数据

副本机制

如果一个datanode挂了,就再开一个datanode,然后吧挂了的数据通过备份推出来存进去,如果之前那个挂了的又活了,则选择一个节点删掉。副本过多将导致维护成本提高

优点

  • 可构建在廉价机器上
  • 高容错性 : 自动恢复

缺点

  • 不支持数据修改(尽管支持改名和删除)
  • 延迟高
  • 不擅长存储小文件,寻址时间长,空间利用低

yarn

资源调度、管理框架

  • resourcemanager 统筹资源
  • nodemanager 资源调度

mapreduce

分布式计算框架


文章作者: fightinggg
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 fightinggg !
 上一篇
下一篇 
计算机网络 计算机网络
nexthexonextbutterflyvolantisyearnyiliashokaindigoapollolandscapecactusmateryicarusfluidmaterial 七层网络 应用层: 针对应用程序的通信服务,
2020-03-18 fightinggg
  目录