×

scala

Spark Listener & Spark on Yarn

Dirk Dirk 发表于2024-06-13 浏览6428 评论0
Saprk 监控 目前掌握了 作业运行中的监控,4040。 运行结束的HistoryServer,18080。也可以根据Api自己开发。 作业运行中的监控也可以有API自己开发。 SparkListener 继承SparkListenerInterface,实现作业开始前、后等需要做的操作。 直接实现SparkListener,覆写需要的方法就可以。 override def onTaskEnd(taskEnd: SparkListenerTaskEnd): Unit = {

scala

一文带你全方位(架构,原理及代码实现)了解Flink(3.2W字建议收藏)(Flink设计与实现:核心原理与源码解析)

呃哦 呃哦 发表于2024-06-12 浏览5648 评论0
注:最底部有PDF目录 ​ 一 flink简介 1.1 什么是flink Apache Flink是由Apache软件基金会开发的开源流处理框架,其核心是用Java和Scala编写的分布式流数据流引擎。Flink以数据并行和流水线方式执行任意流数据程序,Flink的流水线运行时系统可以执行批处理和流处理程序。此外,Flink的运行时本身也支持迭代算法的执行。 1.2 flink特点 批流统一 支持高吞吐、低延迟、高性能的流处 支持带有事件时间的窗口

scala

升级ambari spark至spark3.0.2 bad substitution 和scala.MatchError: x.x (of class java.lang.String)错误解决

忽然一转身 忽然一转身 发表于2024-06-12 浏览5437 评论0
场景描述:由于业务要求想要使用Hudi,而hudi需要spark2.4.5+版本,canal+kafka+sss+hudi 当前版本: hdp3.1.4 hadoop 3.1.0 hive 3.1.0 spark 2.3.0 scala 2.11.8 原计划升级ambari,但发现ambari2.7.5spark版本为2.3.3(好像)不满足要求 后决定在现有基础上升级spark 1. 升级scala 官网下载 scala.2.12.10 解压到linux上并配置环境变量,s

scala

Scala基础语法入门(三)Scala中的各种运算符(scala 运算符)

jsonyy jsonyy 发表于2024-06-12 浏览6538 评论0
🙆‍♂️🙆‍♂️ 写在前面 ​🏠​ 个人主页:csdn春和 📚 推荐专栏:更多专栏尽在主页!  JavaWeb专栏(从入门到实战超详细!!!)  SSM专栏 (更新中…) ​📖​ 本期文章:Scala基础语法入门(三)Scala中的各种运算符 如果对您有帮助还请三连支持,定会一 一回访!🙋🏻‍♂️ Scala中的运算符 1、算数运算符 Scala 运算符的使用和 Java 运算符的使用基本相同 def main(args: Array[String

scala

Flink集群部署(flink集群部署方式)

xiaoyao xiaoyao 发表于2024-06-12 浏览5630 评论0
1、环境准备工作 1.1 基础环境 JDK1.8 及以上【配置 JAVA_HOME 环境变量】   SSH 免密码登录【集群内节点之间免密登录】 1.2 安装包下载 使用 Flink1.12.0 版本 2、Local模式部署 在 Local 模式下,不需要启动任何的进程,仅仅是使用本地线程来模拟 Flink 的进程,适用于测试开发调试 等,这种模式下,不用更改任何配置,只需要保证 JDK8 安装正常即

scala

Flink1.13.2三种方式安装部署(flink安装教程)

YaoYao YaoYao 发表于2024-06-12 浏览9595 评论0
大家好,我是土哥。 今天,有位Flink初学者问我有没有Flink的安装教程,看到这后,土哥二话不说直接安排上。 以下教程全部使用 Flink1.13.2版本,在普通用户下面部署: 1、Standalone部署 版本要求: 版本 节点 部署方式 flink-1.13.2-bin-scala_2.11.tgz 192.168.244.129 standalone 1.1 将软件安装包放入集群中 1.2、软件包解压 tar -zxvf flink-1.13.2-b

scala

大数据之Spark(2)- Idea实现WordCount

jsonyy jsonyy 发表于2024-06-12 浏览4220 评论0
Spark Shell仅在测试和验证我们的程序时使用的较多,在生产环境中,通常会在IDE中编制程序,然后打成jar包,然后提交到集群,最常用的是创建一个Maven项目,利用Maven来管理jar包的依赖。 1 编写WordCount程序 1)创建一个Maven项目WordCount并导入依赖 <dependencies> <dependency> <groupId>org.apache.spark</grou

scala

Scala安装步骤(scala安装教程)

king king 发表于2024-06-12 浏览5247 评论0
一  Windows下安装scala运行环境   1.配置jdk   2.官网下载scala包     3.选择一个最好不带有中文的路径进行解压,因为配置环境变量会用到   4.配置系统环境变量   5.验证是否配置好   打开cmd,输入scalac 二  安装编译工具并简单配置   1.安装IDEA   开发工具我们选择IntelliJ IDEA   2.配置IDEA   打开软件后,选择Settings - Plugin,在搜索框输入scala,安装完成后重启IDEA

scala

数仓:数据同步之道、数据接入技术栈、ETL加载策略

云点 云点 发表于2024-06-12 浏览6581 评论0
二、阿里数据仓库的同步方式  数据仓库的特性之一是集成,将不同的数据来源、不同形式的数据整合在一起,所以从不同业务系统将各类数据源同步到数据仓库是一切的开始。 阿里数据仓库的数据同步的特点: 数据来源的多样性。(除了结构化的数据,还有大量非结构化数据,特别是日志数据,这类数据通常直接以文本形式记录在文件系统中,对于数据的分析、统计、挖掘等各类数据应用有极大的价值。) 数据量巨大。(目前大型互联网企业的大数据系统每条同步的数据量达到 PB 级别(1 PB = 1024 TB),而阿里的

scala

Spark Doris Connector设计方案

晚风 晚风 发表于2024-06-12 浏览6063 评论0
 Apache Doris 代码仓库地址:apache/incubator-doris 欢迎大家关注加星   Spark Doris Connector 是Doris在0.12版本中推出的新功能。用户可以使用该功能,直接通过Spark对Doris中存储的数据进行读写,支持SQL、Dataframe、RDD等方式。 从Doris角度看,将其数据引入Spark,可以使用Spark一系列丰富的生态产品,拓宽了产品的想象力,也使得Doris和其他数据源的联合查询成为可能 1.技术选型 在早

scala

sqoop导入和导出数据操作(保姆级教程)(sqoop导入和导出数据的基本过程)

西园 西园 发表于2024-06-12 浏览9516 评论0
导入: 一、将mysql数据库中的表数据导入到HDFS 表数据和格式如下: 1、首先先在hdfs中创建目录,用于导入后存放数据hdfs dfs -mkdir /sqooptesthdfs dfs -mkdir /sqooptest/demo1 使用sqoop import 命令将MySQL中的表导入到hdfs中 sqoop import \ --connect jdbc:mysql://nnode1:3306/stu \ --username root \ --password 1231

scala

Spark任务调度机制(spark的任务调度)

Benega Benega 发表于2024-06-12 浏览4225 评论0
概述 在生产环境下,Spark集群的部署方式一般为YARN-Cluster模式,之后的内核分析内容中我们默认集群的部署方式为YARN-Cluster模式。在上一章中我们讲解了Spark YARN-Cluster模式下的任务提交流程,但是我们并没有具体说明Driver的工作流程, Driver线程主要是初始化SparkContext对象,准备运行所需的上下文,然后一方面保持与ApplicationMaster的RPC连接,通过ApplicationMaster申请资源,另一方面根据用户业务逻辑