×

scala

spark的结构化API(spark数据结构)

sgq5136 sgq5136 发表于2024-06-21 浏览5885 评论0
1.结构化API概述 Apache Spark是一个用于大规模数据处理的快速,可靠,容错的分布式计算框架。 Spark有两套基本的API(Application Programming Interface,应用程序编程接口): 低级的“非结构化”API:弹性分布式数据集(RDD) 高级的“结构化”API:类型安全的结构化数据API——Dataset 结构化API是处理各种数据类型的工具,可处理非结构化的日志文件,半结构化的CSV文件,以及高度结构化的Parquet文件。结构化API指