×

scala

FlinkSQL快速入门(flink sql教程)

luo5943 luo5943 发表于2024-05-23 浏览8063 评论0
一.FlinkSQL和TableAPI简介 Flink针对流处理和批处理,为我们提供了多种操作API。从图中可知,越上层的API抽象程度越高,门槛越低(大家都熟悉SQL),但也丧失了灵活性。 Table API 是一系列集成在Java或Scala语言中的查询API,它允许通过一些关系运算符操作进行很直观的操作。 FlinkSQL 则是基于Apache Calcite实现了标准的SQL,可以通过编写SQL的方式进行Flink数据处理。 需要引入的依赖 <dependency

scala

Spark(四)(spark四大组件)

零度 零度 发表于2024-05-23 浏览4711 评论0
5、RDD的转换算子 5.1 Value类型 5.1.1 map案例 作用:返回一个新的 RDD,该 RDD 由每一个输入元素经过 func 函数转换后组成 需求:创建一个 1-10 数组的 RDD,将所有元素*2 形成新的 RDD 1)创建 scala> var source = sc.parallelize(1 to 10) ​ source: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[8] at p

scala

学习大数据的第15天——了解scala的第一天(scala概述、标识符、变量常量的定义、字符串操作、键盘录入、文件写入和读出以及数据类型)

真 发表于2024-05-23 浏览3428 评论0
学习大数据的第15天——今天好奇scala语言,就花了一天去了解了一点,因为今天是自习,把明天上课要讲的对象预习了,然后就去看scala了哈哈哈 那我们今天就总结一下今天学习的scala知识点 什么是Scala 以我的了解来说,就是比java更加的体现出面向对象,众所周知,Java是一门面向对象的编程,但是Java中有些并没有真正意义上的面向对象,正是所谓"万物皆可为对象,想new几个是几个"嘿嘿,而scala还有一些函数式编程的概念 Scala概述 1.1、scala编译结果的反编译

scala

spark错题本(spark报错)

乔帅-域名批发 乔帅-域名批发 发表于2024-05-22 浏览6770 评论0
一,Task not serializable 原因:用了mysql的jdbc,其connect需要在各个服务器上单据创建,不能集群共享一个数据连接。 下图中的driver和excutor不在同一台服务器,connection不能共享。 第二种:使用了实现某个接口匿名内部类,这个内部类没有任何序列化的标识,所以报错,这种情况下不能使用匿名内部类,创建一个类,实现需要的接口,同时实现Serializable接口: static class MyMapFunction implement

分布式

kafka怎么保证消息顺序?(kafka怎么保证消息顺序消费)

zhuan888 zhuan888 发表于2024-05-22 浏览14278 评论0
kafka学习 1、kafka怎么保证消息的消费顺序? kafka只保证单partition有序,如果Kafka要保证多个partition有序,不仅broker保存的数据要保持顺序,消费时也要按序消费。假设partition1堵了,为了有序,那partition2以及后续的分区也不能被消费,这种情况下,Kafka 就退化成了单一队列,毫无并发性可言,极大降低系统性能。因此Kafka使用多partition的概念,并且只保证单partition有序。这样不同partiiton之间不会干扰对方。

scala

Spark序列化 & Encoders(spark序列化和反序列化)

刀贱贱 刀贱贱 发表于2024-05-22 浏览11698 评论0
spark序列化方式 分布式的程序存在着网络传输,无论是数据还是程序本身的序列化都是必不可少的。spark自身提供两种序列化方式: java序列化:这是spark默认的序列化方式,使用java的ObjectOutputStream框架,只要是实现了java.io.Serializable接口的类都可以,这种方式虽然通用但是性能差,占用的空间也比较大 kryo序列化:相比于java序列化,kryo更高效且序列化结果紧凑,占用空间小,但是不能序列化所有数据类型,且为更好的性能,需要在程序中注

MYSQL教程

[新人向]MySQL和Navicat下载、安装及使用详细教程

无理 无理 发表于2024-05-22 浏览12833 评论0
MySQL和Navicat下载和安装及使用详细教程 因为这些软件的安装很多都是纯英文,作为新手安装真的需要摸索好久,包括我自己,所以Pipi酱就把自己的经验分享给大家~ MySQL的安装教程 一、下载安装包链接: 1.下载MySQL:https://dev.mysql.com/downloads/windows/installer/8.0.html 这里我们直接下载第一个(24.4M),下载到任意目录即可。 2、安装MySQL 二、安装 1、这里我们安装点击Yes 2、选择Custo

scala

Spark关键概念(spark核心概念)

薛崇龙₁₈₁₀₃₄₆₂₂₂₃ 薛崇龙₁₈₁₀₃₄₆₂₂₂₃ 发表于2024-05-22 浏览4774 评论0
一、Spark集群角色 当Spark Application运行在集群上时,主要有四个部分组成 1.Driver 是一个JVM Process进程,编写的Spark应用程序就运行在Driver上,由Driver进程执行 2.Master(ResourceManager) 是一个JVM Process进程,主要负责资源的调度和分配,并进行集群的监控等职责 3.Worker(NodeManager) 是一个JVM Process进程,一个Worker运行在集群中的一台服务器上,

scala

搭建Spark单机版环境(搭建spark单机版环境需要安装哪些软件)

renhai renhai 发表于2024-05-22 浏览3717 评论0
文章目录 零、本讲学习目标 一、搭建Spark单机版环境 (一)私有云上创建ied实例 (二)连接ied虚拟机 (三)修改ied实例主机名 (四)设置IP地址与主机名映射 (五)下载、安装和配置JDK 1、下载JDK压缩包 2、上传到ied虚拟机 3、将压缩包解压到指定目录 4、配置Java环境变量 (六)下载、安装与配置Spark 1、下载Spark安装包 2、将Spark安装包上传到ied虚拟机 3、将Spark安装包解压到指定目录 4、配置Spark环境变量 二、使用Spark单机版环境

scala

2021-11-14(20211114农历是多少)

HYH HYH 发表于2024-05-22 浏览4442 评论0
Spark 运行模式 本章介绍在各种运行模式如何运行 Spark 应用. 首先需要下载 Spark 1.官网地址 http://spark.apache.org/ 2.文档查看地址 https://spark.apache.org/docs/2.1.1/ 3.下载地址 https://archive.apache.org/dist/spark/ 目前最新版本为 2.4.4, 考虑到国内企业使用情况我们仍然选择 2.1.1 来学习. 不过2.x.x 的版本差别都不大. Local