×

scala

四、Spark数据保存与读取(spark存储数据)

和煦的糖果风 和煦的糖果风 发表于2024-06-27 浏览6643 评论0
一、文本文件 读取文件 textFile() 当我们将一个文本文件读取为RDD时,输入的每一行都会成为RDD的一个元素。 也可以将多个完整的文本文件一次性读取为一个pair RDD,其中键是文件名,值是文件内容。 使用wholeTextFiles()方法: 它也以目录为参数,返回一个 pair RDD,其中key是输入文件的文件名,value是对应文件的所有数据,size为文件个数。 wholeTextFiles() 在每个文件表示一个特定时间段内的数据时非常有用。 比如文件表示不