big data 第9页 - 星花园站长资源网

PySpark环境搭建配置hadoop spark访问本地文件并执行运算时，可能会遇到权限问题或是dll错误。这是因为spark需要使用到Hadoop的winutils和hadoop.dll，首先我们必须配置好Hadoop相关的环境。可以到github下载：https://github.com/4ttty/winutils gitcode提供了镜像加速：https://gitcode.net/mirrors/4ttty/winutils 我选择了使用这个仓库提供的最高的Hadoop

scala

day82 Flink 安装 Source 算子

hasaki 发表于2024-05-15 浏览7191 评论0

I know, i know 地球另一端有你陪我一、Flink Apache Flink是一个框架和分布式处理引擎，用于对无界和有界数据流进行有状态计算。Flink设计为在所有常见的集群环境中运行，以内存速度和任何规模执行计算。可以对标 Spark，一个擅于流处理，一个擅于批处理 1、Flink 和 Spark 区别应用上： Flink 多用于处理流数据；Spark 多用于处理批数据底层上： Flink 底层是持续流模型，有类似的 Map 端（上游）和 Re

scala

Flink ① ＜概述＞特点,应用场景,组成,处理模型,选型＜快速应用＞ Java及Scala版WCount ＜体系结构＞角色,架构＜安装部署＞StandAlone 模式

欢乐多多 发表于2024-05-15 浏览5710 评论0

目录第一部分 Flink 概述第 1 节什么是 Flink 第 2 节 Flink 特点第 3 节 Flink 应用场景 3.1 事务型处理 3.2 分析型处理第 4 节 Flink 核心组成及生态发展 4.1 Flink核心组成 4.2 Flink生态发展第 5 节 Flink 处理模型:流处理与批处理第 6 节流处理引擎的技术选型第二部分 Flink快速应用第 1 节单词统计案例(批数据) 1.1 需求 1.2 代码实现第 2 节

scala

在实践中学习Spark计算框架（01）（spark基于什么计算框架）

haibao 发表于2024-05-15 浏览5050 评论0

第 1 章：大数据技术概述【理论篇】 1.大数据时代 · 三次信息化浪潮信息化浪潮发生时间标志解决问题代表企业第一次浪潮 1980年前后个人计算机信息处理 Inter、AMD、IBM、苹果、微软、联想、戴尔、惠普等第二次浪潮 1995年前后互联网信息传输雅虎、谷歌、阿里巴巴、百度、腾讯等第三次浪潮 2010年前后物联网、云计算、大数据信息爆炸将涌现出一批新的市场标杆企业 ·必要性： 1.存储设备容量不断增加、2.CPU处理能力大幅提升

scala

Spark Transformation 算子总结笔记

HYH 发表于2024-05-15 浏览5210 评论0

简介：由于本篇文章写的内容多，且杂，加上本人在写的过程中还加入了大量解释，为此本篇文章会设置成粉丝可见，请谅解！本篇文章主要包含了Spark Transformation 算子的value算子（ 1、map()映射 2、mapPartitions()以分区为单位执行Map map()和mapPartition()的区别： 3、mapPartitionsWithIndex()带分区号 4、flatMap()扁平化 6、groupBy()分组（包含四种方法取首字母） 7、GroupBy()之

scala

升级Spark 3.2的包冲突记录（spark jar包冲突）

办公资源 发表于2024-05-15 浏览6556 评论0

1.java.lang.NoSuchMethodError: com.fasterxml.jackson.databind.JsonMappingException.<init>(Ljava/io/Closeable;Ljava/lang/String;)V 11:13:16.370 [Driver] ERROR org.apache.spark.deploy.yarn.ApplicationMaster - User class threw exception: java.lan

html5教程

AES-256-CBC 加密解密（AES-256加密）

daimoway 发表于2024-05-15 浏览9958 评论0

//AES加密/解密 //在线AES加密解密工具。 // AES采用对称分组密码体制， // 密钥长度支持为128/192/256bits。 // 用户密钥长度不足时，平台将以0x00自动填充。 // IV也一样，自动填充，超出部分将被忽略。 // 加密时会将明文数据按16byte进行分组，

后端

PySpark | PySpark库 | 本机开发环境搭建 | 分布式代码执行分析（pyspark环境配置）

xinyu590 发表于2024-05-15 浏览8958 评论0

传送门：视频地址：黑马程序员Spark全套视频教程 1.PySpark基础入门（一） 2.PySpark基础入门（二） 3.PySpark核心编程（一） 4.PySpark核心编程（二） 5.PySaprk——SparkSQL学习（一） 6.PySaprk——SparkSQL学习（二） 7.Spark综合案例——零售业务统计分析 8. Spark3新特性及核心概念（背）一、PySpark库 1.框架与类库类库：—堆别人写好的代码，你可以导入进行使用。PySpa

scala

Spark整理：任务提交源码解析-part1

nmgtjkjyxgs 发表于2024-05-14 浏览7738 评论0

1，Spark任务提交入口：在脚本提交与java类提交，都会调用 org.apache.spark.deploy.SparkSubmit 类 main方法： 2，调用doSubmit方法： 3，构建SparkSubmitArguments对象（Spark任务提交的参数解析） Spark运行时的参数：参数属性：在这里插入代码片var master: String = null var deployMode: String = null var executorM

scala

Spark RDD算子详解（spark rdd 算子）

冬时茗 发表于2024-05-14 浏览6052 评论0

RDD方法=>RDD算子(Operator 操作) RDD的方法和Scala集合对象的方法不一样，集合对象的方法都是在同一个节点的内存中完成的。 RDD的方法可以将计算逻辑发送到Executor端（分布式节点）执行。为了区分不同的处理效果，所以将RDD的方法称之为算子。RDD的方法外部的操作都是在Driver端执行的，而方法内部的逻辑代码是在Executor端执行。算子字面看还是以计算为主，RDD不存放数据转换算子（Transformation）：功能的补充和封装，将旧的RD

scala

像写SQL一样去处理内存中的数据，SparkSQL入门教程

myus? 发表于2024-05-14 浏览8146 评论0

（一）概述 SparkSQL可以理解为在原生的RDD上做的一层封装，通过SparkSQL可以在scala和java中写SQL语句，并将结果作为Dataset/DataFrame返回。简单来讲，SparkSQL可以让我们像写SQL一样去处理内存中的数据。 Dataset是一个数据的分布式集合，是Spark1.6之后新增的接口，它提供了RDD的优点和SparkSQL优化执行引擎的优点，一个Dataset相当于RDD+Schema的结合。 Dataset的底层封装是RDD，当RDD的泛型是Ro

django

面经 - OpenStack（Docker、Django、K8S、SDN）知识点

乄 发表于2024-05-14 浏览4449 评论0

概述云计算是一种采用按量付费的模式，基于虚拟化技术，将相应计算资源（如网络、存储等）池化后，提供便捷的、高可用的、高扩展性的、按需的服务（如计算、存储、应用程序和其他 IT 资源）。云计算基本特征：自主服务：可按需的获取云端的相应资源（主要指公有云）；网路访问：可随时随地使用任何联网终端设备接入云端从而使用相应资源。资源池化：快速弹性：可方便、快捷地按需获取和释放计算资源。按量计费：常见的部署模式公有云私有云社区云混合云三种服务模式 IaaS

ZBlogIt

Nice to meet you, too!

数据仓库

Игры казино захватывают мир онлайн гембл...

scala

PySpark与GraphFrames的安装与使用（pyspark graphframe）

百度用户45065 发表于2024-05-15 浏览18321 评论0

scala

day82 Flink 安装 Source 算子

hasaki 发表于2024-05-15 浏览7191 评论0

scala

Flink ① ＜概述＞特点,应用场景,组成,处理模型,选型＜快速应用＞ Java及Scala版WCount ＜体系结构＞角色,架构＜安装部署＞StandAlone 模式

欢乐多多 发表于2024-05-15 浏览5710 评论0

scala

在实践中学习Spark计算框架（01）（spark基于什么计算框架）

haibao 发表于2024-05-15 浏览5050 评论0

scala

Spark Transformation 算子总结笔记

HYH 发表于2024-05-15 浏览5210 评论0

scala

升级Spark 3.2的包冲突记录（spark jar包冲突）

办公资源 发表于2024-05-15 浏览6556 评论0

html5教程

AES-256-CBC 加密解密（AES-256加密）

daimoway 发表于2024-05-15 浏览9958 评论0

后端

PySpark | PySpark库 | 本机开发环境搭建 | 分布式代码执行分析（pyspark环境配置）

xinyu590 发表于2024-05-15 浏览8958 评论0

scala

Spark整理：任务提交源码解析-part1

nmgtjkjyxgs 发表于2024-05-14 浏览7738 评论0

scala

Spark RDD算子详解（spark rdd 算子）

冬时茗 发表于2024-05-14 浏览6052 评论0

scala

像写SQL一样去处理内存中的数据，SparkSQL入门教程

myus? 发表于2024-05-14 浏览8146 评论0

django

面经 - OpenStack（Docker、Django、K8S、SDN）知识点

乄 发表于2024-05-14 浏览4449 评论0

« 2023年9月 »
一	二	三	四	五	六	日
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30