Spark RDD,DataFrame和DataSet的区别

2025-03-05 01:12:12
推荐回答(1个)
回答1:

官网解释:
RDD:A Resilient Distributed Dataset (RDD), the basic abstraction in Spark.
rdd是一个分布式的数据集,数据分散在分布式集群的各台机器上
A DataFrame is equivalent to a relational table in Spark SQL, and can be created using various functions in SQLContext
dataframe更像是一张关系型数据表,是一种spark独有的数据格式吧,这种格式的数据可以使用sqlcontext里面的函数