scala Spark几种部署模式(spark的几种部署模式) 水果超 发表于2024-06-13 浏览5881 评论0 背景:集群部署几种模式集群模式 一.Standalone模式 1.解压 [root@Linux121 servers]# tar -zxvf spark-2.4.5-bin-without-hadoop-scala-2.12.tgz 2.配置环境变量 export SPARK_HOME=/opt/lagou/servers/spark-2.4.5 export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin 3.修改配置文件 [r
scala 词频的统计(词频的统计方法) 無言以對 发表于2024-06-13 浏览6625 评论0 任务8、词频统计 -参看本博《经典案例【词频统计】十一种实现方式》 -针对单词文本文件,统计每个单词出现的次数 hello hadoop hello spark i love you hadoop and spark i learn hadoop and scala -思路:读取文件,通过拆分得到单词数组,定义一个哈希映射保存词频统计结果,遍历单词数组,如果第一次遇到某个单词,就在哈希映射里添加一个元素,单词为键,1为值;如果不是第一次遇到,那么在哈希映射里找到该键,将其值加1…… (一)编
scala 在实践中学习Hadoop计算框架(01)--从0到Hadoop版“Hello word”:WordCount 的实现 下午茶 发表于2024-06-13 浏览7419 评论0 第 3 章:Hadoop开发环境配置与搭建【实践篇】 基本思路: windows平台 ——(安装Vmware)——>创建N台虚拟机(裸机) ——(安装Linux操作系统)——>Linux平台 (如果是通过云服务器搭建,则省略上面两步。为什么?因为用票子了!) ——(集群部署)——>Hadoop平台(前夕准备) 接下来,才算是真正的要和Hadoop打交道了。你最准备好了吗? ——(安装模式:3选1)——>Hadoop平台 (了解即可) Hadoop 支持的
scala SCALA环境搭建(3)_scala编译结果的反编译深入分析---大数据之_SCALA工作笔记006 零度 发表于2024-06-13 浏览5480 评论0 然后我们来看一下,可以看到编译后的HelloScala.java 出现了 HelloScala$.class HelloScala.class 我们知道,.java文件编译成了.class,而.scala也编译成了.class,那么我们用 scala HelloScala可以运行 那么我们用 java HelloScala可以看到执行报错了. 对吧可以看到执行的时候,他去找scala.Predef$这个类去了
scala scala:word count 单词计数 校长 发表于2024-06-13 浏览5015 评论0 创建maven工程,导入jar包: <properties> <project.build.sourceEncoding>UTF-8</project.build.sourceEncoding> <maven.compiler.source>1.8</maven.compiler.source> <maven.compiler.target>1.8</maven.compiler.target>
scala Spark踩坑日记(spark笔记) 两碗 发表于2024-06-13 浏览5209 评论0 Spark日记 一 spark-sql元数据踩坑 踩坑背景: 工作需要我一直常开一个spark-sql进程,然后做了一个需求是重刷某个表的分区数据,重刷任务是在airflow调度的,此时已经有两个spark-sql进程了,刷新完毕后在我常开的spark-sql中去访问该分区数据,报文件找不到的异常(忘记截图),这个文件在分区路径下确实不存在,但是分区下是有数据的。然后重启spark-sql,问题解决。 个人猜测 猜测是元数据引起,每个spark-sql会cache一份metad
scala Spark编程基础总结(Spark编程基础) 田羽-13804166949 发表于2024-06-13 浏览4534 评论0 初始化Spark // 创建spark配置 val conf = new SparkConf().setAppName(appName).setMaster(master) // SparkContext上下文对象 new SparkContext(conf) RDDS Spark 核心的概念是 Resilient Distributed Dataset (RDD):一个可并行操作的有容错机制的数据集合。 有 2 种方式创建 RDDs: 第一种是在你的驱动程序中并行化一个已经
scala (三)Flink1.15 发布最新版本说明(flink1.12 发布) ipacer 发表于2024-06-13 浏览6790 评论0 官网 https://nightlies.apache.org/flink/flink-docs-release-1.15/release-notes/flink-1.15 变化的依赖概况 在Flink 1.15中有几个变化,当从早期版本升级时,需要更新依赖项名称,主要包括从非Scala模块中选择排除Scala依赖项,以及重新组织表模块。 一个快速的依赖变化清单如下: 对以下模块的任何依赖都需要更新,以不再包含后缀: flink-cep flink-clients flink-
scala [CDH] Spark 属性、内存、CPU相关知识梳理(spark核数和内存) 李秋波 发表于2024-06-13 浏览7415 评论0 version:2.4.0-cdh6.3.0 spark properties 常用配置 配置属性的2种方式: 通过SparkConf对象在程序内设置 通过spark- submit --conf/-c 在程序提交时设置,此外spark-submit还会读取conf/spark-defaults.conf中的属性 对于未设置的属性,spark会使用默认值。 spark属性大致可以分为两类: 和部署(deploy)相关的,这一类需要在配置文件中或spark-submit时
scala 2021-09-18 Stage/Job cancelled because SparkContext was shut down UPARK 发表于2024-06-13 浏览6936 评论0 查看输出日志 [2021-09-17 21:10:49,078] {ssh.py:141} INFO - 21/09/18 05:10:49 INFO yarn.Client: Application report for application_1630745810692_0149 (state: RUNNING) [2021-09-17 21:10:50,084] {ssh.py:141} INFO - 21/09/18 05:10:50 INFO yarn.Client: Applic
scala flink集群搭建(flink集群搭建两种模式) 河蓝 发表于2024-06-13 浏览5399 评论0 1.1 基础环境 jdk1.8及以上【配置JAVA_HOME环境变量】 ssh免密码登录【集群内节点之间免密登录】(教程:https://blog.csdn.net/qq_19520877/article/details/119490098) 1.2 安装包下载 https://archive.apache.org/dist/flink/flink-1.7.2/flink-1.7.2-bin-hadoop27-scala_2.11.tgz 1.3 集群规划 linux9
scala 在实践中学习Spark计算框架(00)(spark基于什么计算框架) 浩满 发表于2024-06-13 浏览6790 评论0 Spark编程基础:00.初步了解 参考书籍:厦门大学-林子雨-Spark编程基础 ———————————————————— 先修课程:(当前状况:了解) 1.大数据技术导论:《大数据技术原理与应用》 2.数据库系统原理:(了解关系数据库与SQL语句) 3.编程能力:(了解面向对象编程基础知识,如Java、C++) ———————————————————— 《Spark编程基础》简介: 以 Scala 作为开发 Spark 应用程序的编程语言。 全书共 8 章: 1.大数据技术概述