×

scala

Spark从入门到精通02之Spark核心编程

test123 test123 发表于2024-06-29 浏览5928 评论0
Spark 计算框架为了能够进行高并发和高吞吐的数据处理,封装了三大数据结构,用于 处理不同的应用场景。三大数据结构分别是: RDD : 弹性分布式数据集 累加器:分布式共享只写变量 广播变量:分布式共享只读变量 1. RDD 1.1. 什么是RDD RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是 Spark 中最基本的数据处理模型。代码中是一个抽象类,它代表一个弹性的、不可变、可分区、里面的元素可并行计算的集合 弹性 存储

scala

Spark从入门到精通01之基础理解

龙运凯ᵀ¹⁸⁶¹⁰⁶⁶⁸⁷⁸⁸ 龙运凯ᵀ¹⁸⁶¹⁰⁶⁶⁸⁷⁸⁸ 发表于2024-06-28 浏览7218 评论0
1. The basic info about Spark 1.1. what is Spark? Spark 是一种基于内存的快速、通用、可扩展的大数据分析计算引擎。 Spark 是一种由 Scala 语言开发的快速、通用、可扩展的大数据分析引擎 Spark Core 中提供了 Spark 最基础与最核心的功能 Spark SQL 是 Spark 用来操作结构化数据的组件。通过 Spark SQL,用户可以使用SQL 或者 Apache Hive 版本的 SQL 方言(HQL)来查