×

scala

Spark 之 RDD行动算子(spark rdd的常用算子)

田小会 田小会 发表于2024-04-27 浏览5009 评论0
前言 本文介绍Spark三大数据结构之一的RDD的行动算子,通过配合案例使读者更加深刻的了解各大行动算子的作用及其使用方法; Spark 知识系列文章    此处罗列了有关Spark相关知识的其他文章,有需要的可以进行点击查阅。    Spark 之 Spark框架及部署    Spark 之Spark三大数据结构    Spark 之 RDD转换算子    Spark 之 SparkSQL    Spark 之 SparkStreaming 一

scala

Windows环境下安装Spark并运行WordCount例子

牙郎 牙郎 发表于2024-04-27 浏览8533 评论0
一、Windows下安装Spark 1、提前安装Java JDK Java版本是1.8,不能是18,16,15或者其他版本。 2、提前安装Scala Scala版本是2.13.1版本。 3、安装Spark 准备好Hadoop软件包(hadoop-2.7.7)和Spark软件包(spark-2.2.0-bin-hadoop2.7)。 高级系统设置—>环境变量—>系统变量(选中Path) (接上一步)—>编辑—>新建(分别新建如下图所示变量

scala

python spark教程菜鸟教程_从零开始学习Spark(二)Scala基础

adgdaggd adgdaggd 发表于2024-04-27 浏览4426 评论0
Scala基础 Spark的原生语言是Scala,因此入门一下Scala是学习Spark的第一步,下面就快速入门一下,争取不花太多的时间。之后的简书中还会有Scala进阶,交代一些其他特性。这篇Scala基础应该可以暂时应付之后Spark的学习。 Scala运行在JVM上 Scala是纯面向对象的语言 Scala是函数式编程语言 Scala是静态类型语言 1. HelloWorld object HelloWorld { def main(args: Array[String

scala

Spark的shuffle(spark的shuffle过程)

sf123456 sf123456 发表于2024-04-27 浏览5852 评论0
  1. Spark的shuffle阶段发生在阶段划分时,也就是宽依赖算子时。     宽依赖算子不一定发生shuffle。 2. Spark的shuffle分两个阶段,一个使Shuffle Write阶段,一个使Shuffle read阶段。 3. Shuffle Write阶段会选择分区器,比如HashPartitioner,RangePartitioner,或者使自定义分区器   也会根据一些条件,来选择到底使用哪一个Writer对象               unsafeshuf

scala

spark运行自带例子_运行Spark例子程序(spark应用实例代码)

test123 test123 发表于2024-04-27 浏览5062 评论0
一、安装和配置 下载并解压Spark到指定目录,如果没有安装JDK、Scala,需要先下载JDK、Scala到指定目录,并设置SPKARK_HOME(JAVA_HOME、SCALA_HOME). 二、启动Spark或Spark集群 如果只是在单节点上运行Spark,无需启动Spark,直接按『三、运行例子程序』运行即可。 如若需要在集群上运行Spark例子程序,需要先启动Spark集群。将已经可以互相无密码登陆的从节点名(或IP地址)加入到主节点的conf/slaves文件中,再将配

scala

Spark 之 Spark框架及部署(spark的框架)

myus? myus? 发表于2024-04-27 浏览4843 评论0
前言    本文简单介绍有关Spark的框架、应用Spark实现WordCount案例以及Spark的部署的相关知识。 Spark 知识系列文章    此处罗列了有关Spark相关知识的其他文章,有需要的可以进行点击查阅。    Spark 之Spark三大数据结构    Spark 之 RDD转换算子    Spark 之 RDD行动算子    Spark 之 SparkSQL    Spark 之 SparkStreaming 一、Spar

scala

scala中的排序sortBy和map例子

sufz sufz 发表于2024-04-27 浏览3731 评论0
API接口点击 一直不会用sortBy,都是用sortWith,今天偶然看到一个sortBy的写法,觉得很高级,分享一下 var ll = List[(String, Int, Int)](("a",1, 400),("b",3, 600),("m",3, 100),("c",2, 40)) println(ll) var a = ll.map{case Tuple3(name:String, age:Int, salary:Int)=>(name,age, salary)}.so

scala

【Spark】SparkShell的运行(sparkshell怎么启动)

正邦鞋业 正邦鞋业 发表于2024-04-27 浏览5727 评论0
简介:spark-shell是Spark自带的交互式Shell程序,方便用户进行交互式编程,用户可以在该命令行下用scala编写spark程序。 spark shell的流程 启动 Spark shell 进入Spark 安装目录后执行 spark-shell --master master 就可以提交Spark 任务 Spark shell 的原理是把每一行 Scala 代码编译成类, 最终交由 Spark 执行Master的地址可以有如下几种设置方式 具体