big data 第36页 - 星花园站长资源网

背景本文基于spark 3.1.2,且运行在yarn模式下最近在调试 spark sql的时候遇到了空指针的问题，如下： Caused by: java.lang.NullPointerException at org.apache.spark.sql.execution.DataSourceScanExec.$init$(DataSourceScanExec.scala:57) at org.apache.spark.sql.execution.FileSourceScanEx

scala

FlinkSQL快速入门（flink sql教程）

luo5943 发表于2024-05-23 浏览8063 评论0

一.FlinkSQL和TableAPI简介 Flink针对流处理和批处理，为我们提供了多种操作API。从图中可知，越上层的API抽象程度越高，门槛越低（大家都熟悉SQL），但也丧失了灵活性。 Table API 是一系列集成在Java或Scala语言中的查询API，它允许通过一些关系运算符操作进行很直观的操作。 FlinkSQL 则是基于Apache Calcite实现了标准的SQL，可以通过编写SQL的方式进行Flink数据处理。需要引入的依赖 <dependency

scala

Spark（四）（spark四大组件）

零度 发表于2024-05-23 浏览4711 评论0

5、RDD的转换算子 5.1 Value类型 5.1.1 map案例作用：返回一个新的 RDD，该 RDD 由每一个输入元素经过 func 函数转换后组成需求：创建一个 1-10 数组的 RDD，将所有元素*2 形成新的 RDD 1）创建 scala> var source = sc.parallelize(1 to 10) source: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[8] at p

scala

学习大数据的第15天——了解scala的第一天（scala概述、标识符、变量常量的定义、字符串操作、键盘录入、文件写入和读出以及数据类型）

真 发表于2024-05-23 浏览3428 评论0

学习大数据的第15天——今天好奇scala语言，就花了一天去了解了一点，因为今天是自习，把明天上课要讲的对象预习了，然后就去看scala了哈哈哈那我们今天就总结一下今天学习的scala知识点什么是Scala 以我的了解来说，就是比java更加的体现出面向对象，众所周知，Java是一门面向对象的编程，但是Java中有些并没有真正意义上的面向对象，正是所谓"万物皆可为对象，想new几个是几个"嘿嘿，而scala还有一些函数式编程的概念 Scala概述 1.1、scala编译结果的反编译

scala

centos7 安装配置spark集群

jsonyy 发表于2024-05-23 浏览4149 评论0

centos7 安装配置spark集群使用wget下载spark-3.0.0-bin-hadoop2.7压缩包（下载对应Hadoop版本的spark） [root@master ~]# wget https://archive.apache.org/dist/spark/spark-3.0.0/spark-3.0.0-bin-hadoop2.7.tgz 将spark压缩包解压到/usr/locla/src [root@master ~]# tar -zxvf spark-3.0.0

scala

spark错题本（spark报错）

乔帅-域名批发 发表于2024-05-22 浏览6770 评论0

一，Task not serializable 原因：用了mysql的jdbc，其connect需要在各个服务器上单据创建，不能集群共享一个数据连接。下图中的driver和excutor不在同一台服务器，connection不能共享。第二种：使用了实现某个接口匿名内部类，这个内部类没有任何序列化的标识，所以报错，这种情况下不能使用匿名内部类，创建一个类，实现需要的接口，同时实现Serializable接口： static class MyMapFunction implement

分布式

kafka怎么保证消息顺序？（kafka怎么保证消息顺序消费）

zhuan888 发表于2024-05-22 浏览14278 评论0

kafka学习 1、kafka怎么保证消息的消费顺序？ kafka只保证单partition有序，如果Kafka要保证多个partition有序，不仅broker保存的数据要保持顺序，消费时也要按序消费。假设partition1堵了，为了有序，那partition2以及后续的分区也不能被消费，这种情况下，Kafka 就退化成了单一队列，毫无并发性可言，极大降低系统性能。因此Kafka使用多partition的概念，并且只保证单partition有序。这样不同partiiton之间不会干扰对方。

scala

Spark序列化 & Encoders（spark序列化和反序列化）

刀贱贱 发表于2024-05-22 浏览11698 评论0

spark序列化方式分布式的程序存在着网络传输，无论是数据还是程序本身的序列化都是必不可少的。spark自身提供两种序列化方式： java序列化：这是spark默认的序列化方式，使用java的ObjectOutputStream框架，只要是实现了java.io.Serializable接口的类都可以，这种方式虽然通用但是性能差，占用的空间也比较大 kryo序列化：相比于java序列化，kryo更高效且序列化结果紧凑，占用空间小，但是不能序列化所有数据类型，且为更好的性能，需要在程序中注

MYSQL教程

[新人向]MySQL和Navicat下载、安装及使用详细教程

无理 发表于2024-05-22 浏览12833 评论0

MySQL和Navicat下载和安装及使用详细教程因为这些软件的安装很多都是纯英文，作为新手安装真的需要摸索好久，包括我自己，所以Pipi酱就把自己的经验分享给大家~ MySQL的安装教程一、下载安装包链接： 1.下载MySQL：https://dev.mysql.com/downloads/windows/installer/8.0.html 这里我们直接下载第一个（24.4M），下载到任意目录即可。 2、安装MySQL 二、安装 1、这里我们安装点击Yes 2、选择Custo

scala

Spark关键概念（spark核心概念）

薛崇龙₁₈₁₀₃₄₆₂₂₂₃ 发表于2024-05-22 浏览4774 评论0

一、Spark集群角色当Spark Application运行在集群上时，主要有四个部分组成 1.Driver 是一个JVM Process进程，编写的Spark应用程序就运行在Driver上，由Driver进程执行 2.Master（ResourceManager）是一个JVM Process进程，主要负责资源的调度和分配，并进行集群的监控等职责 3.Worker（NodeManager）是一个JVM Process进程，一个Worker运行在集群中的一台服务器上，

scala

搭建Spark单机版环境（搭建spark单机版环境需要安装哪些软件）

renhai 发表于2024-05-22 浏览3717 评论0

文章目录零、本讲学习目标一、搭建Spark单机版环境（一）私有云上创建ied实例（二）连接ied虚拟机（三）修改ied实例主机名（四）设置IP地址与主机名映射（五）下载、安装和配置JDK 1、下载JDK压缩包 2、上传到ied虚拟机 3、将压缩包解压到指定目录 4、配置Java环境变量（六）下载、安装与配置Spark 1、下载Spark安装包 2、将Spark安装包上传到ied虚拟机 3、将Spark安装包解压到指定目录 4、配置Spark环境变量二、使用Spark单机版环境

scala

2021-11-14（20211114农历是多少）

HYH 发表于2024-05-22 浏览4442 评论0

Spark 运行模式本章介绍在各种运行模式如何运行 Spark 应用. 首先需要下载 Spark 1．官网地址 http://spark.apache.org/ 2．文档查看地址 https://spark.apache.org/docs/2.1.1/ 3．下载地址 https://archive.apache.org/dist/spark/ 目前最新版本为 2.4.4, 考虑到国内企业使用情况我们仍然选择 2.1.1 来学习. 不过2.x.x 的版本差别都不大. Local

ZBlogIt

Nice to meet you, too!

淘宝直播 虚拟主播 3D场景 新视点

Preserving optimal health is crucial for...

scala

Spark DPP(动态分区裁剪)导致的DataSourceScanExec NullPointerException问题分析以及解决

林中英雄 发表于2024-05-23 浏览5090 评论0

scala

FlinkSQL快速入门（flink sql教程）

luo5943 发表于2024-05-23 浏览8063 评论0

scala

Spark（四）（spark四大组件）

零度 发表于2024-05-23 浏览4711 评论0

scala

学习大数据的第15天——了解scala的第一天（scala概述、标识符、变量常量的定义、字符串操作、键盘录入、文件写入和读出以及数据类型）

真 发表于2024-05-23 浏览3428 评论0

scala

centos7 安装配置spark集群

jsonyy 发表于2024-05-23 浏览4149 评论0

scala

spark错题本（spark报错）

乔帅-域名批发 发表于2024-05-22 浏览6770 评论0

分布式

kafka怎么保证消息顺序？（kafka怎么保证消息顺序消费）

zhuan888 发表于2024-05-22 浏览14278 评论0

scala

Spark序列化 & Encoders（spark序列化和反序列化）

刀贱贱 发表于2024-05-22 浏览11698 评论0

MYSQL教程

[新人向]MySQL和Navicat下载、安装及使用详细教程

无理 发表于2024-05-22 浏览12833 评论0

scala

Spark关键概念（spark核心概念）

薛崇龙₁₈₁₀₃₄₆₂₂₂₃ 发表于2024-05-22 浏览4774 评论0

scala

搭建Spark单机版环境（搭建spark单机版环境需要安装哪些软件）

renhai 发表于2024-05-22 浏览3717 评论0

scala

2021-11-14（20211114农历是多少）

HYH 发表于2024-05-22 浏览4442 评论0

« 2023年9月 »
一	二	三	四	五	六	日
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30