大数据学什么框架?什么是生态圈?

2025-03-11 07:10:17
推荐回答(1个)
回答1:

大数据平台中的主流框架主要有以下三种:

(一)Hadoop生态圈

  • HDFS:分布式文件系统,解决大数据的存储

  • Yarn(MapReduce):分布式计算框架,解决大数据的计算

  • Hive:Hadoop中的数据分析引擎,支持SQL

  • HBase:基于HDFS的NoSQL数据库

  • ZooKeeper:分布式协调服务,可以用于实现HA(高可用架构)

  • 其他

(二)Spark生态圈

  • Spark Core:Spark的核心,用于离线计算

  • Spark SQL:Spark的数据分析引擎,支持SQL语句

  • Spark Streaming:Spark的流式计算引擎,但本质依然是离线计算

  • MLlib:机器学习框架

(三)Flink生态圈

  • Flink DataSet:Flink批处理(离线计算)API

  • Flink DataStream:Flink流处理(实时计算)API

  • Flink Table&SQL:Flink的数据分析引擎,支持SQL语句

  • MLlib:机器学习框架