大数据组件
大数据组件 Google的“三驾马车”:
Google File System (GFS) 适用于大规模分布式数据处理的、可扩展的分布式文件系统 MapReduce 一种用于大规模分布式数据的计算框架 BigTable –一种构建在GFS之上的分布式数据库系统 1 Hadoop Hadoop是Apache软件基金会旗下的一个开源的大数据处理框架。
Hadoop基础架构 –NameNode:负责管理HDFS的元数据信息
–Secondary NameNode:协助NameNode管理HDFS元数据信息
–DataNode:负责实际数据的存储
–JobTracker:负责MapReduce作业管理、资源调度等
–TaskTrack:负责Map以及Reduce任务的执行和任务状态的回报
Hadoop生态系统 2 HDFS Hadoop Distributed File System 与MaReduce同为Hadoop的核心组件 块级别的分布式文件系统 3 HBase HBase是谷歌BigTable的开源实现,因此,具有与 BigTable类似的特性 采用HDFS作为底层存储 依赖Zookeeper提供的分布式协调服务 与传统关系型数据库的区别:
数据类型:关系数据库采用关系模型,具有丰富的数据类型和存储方式;HBase则采用了更加简单的数据模型, 它把数据存储为未经解释的字符串。 数据操作:只有简单的插入、查询、删除、清空。 存储模式:基于列存储,每个列族都由几个文件保存,不同列族的文件是分离的。 数据索引:HBase只有一个索引——行键,HBase中的所有访问方法,或者通过行键访问,或 者通过行键扫描。 数据维护:在HBase中执行更新操作时,并不会删除数据旧的版本,而 是生成一个新的版本,旧的版本仍然保留。 HBase系统架构 HMaster HMaster可以存在多个,主HMaster由ZooKeeper动态选举 产生 协调RegionServer 管理元信息 ZooKeeper 内部存储着有关HBase的重要元信息和状态信息,担任HMaster与RegionServer之间的服务协调角色 RegionServer 负责Region的存储和管理并与Client交互 处理读写请求 Client Client提供HBase访问接口 与RegionServer交互读写数 据,并维护cache加快对HBase的访问速度。 4 Kafka 为了降低数据生产者和消费者之间的耦合度而引入的一层“中间件”。