Hadoop生态圈

hadoop生态圈

  • 生态圈图

    • HDFS:
      • 分布式文件存储
    • Hbase(key-val)
      • 分布式存储数据库
    • 数据计算框架
      • MapReduce
      • 执行计算任务。需要自己写代码,负责计算,不负责存储
      • MapReduce做离线,Strom适合做实时
      • Strom: 处理流式数据
    • Hive
      • sql语言,执行Hive时调用Mapreduce做查询
    • Mahout
      • 查询,算法封装
    • RDBMS
    • Online Engine
      • 例如线上推荐引擎
    • Zookeeper
      • 选择主副节点,hadoop1.0没有引入,2.0引入

###应用举例

  • 示例图

  • QPS:每秒处理相应请求数