scala PySpark与GraphFrames的安装与使用(pyspark graphframe) 百度用户45065 发表于2024-05-15 浏览18321 评论0 PySpark环境搭建 配置hadoop spark访问本地文件并执行运算时,可能会遇到权限问题或是dll错误。这是因为spark需要使用到Hadoop的winutils和hadoop.dll,首先我们必须配置好Hadoop相关的环境。可以到github下载:https://github.com/4ttty/winutils gitcode提供了镜像加速:https://gitcode.net/mirrors/4ttty/winutils 我选择了使用这个仓库提供的最高的Hadoop
scala day82 Flink 安装 Source 算子 hasaki 发表于2024-05-15 浏览7191 评论0 I know, i know 地球另一端有你陪我 一、Flink Apache Flink是一个框架和分布式处理引擎,用于对无界和有界数据流进行有状态计算。Flink设计为在所有常见的集群环境中运行,以内存速度和任何规模执行计算。 可以对标 Spark,一个擅于流处理,一个擅于批处理 1、Flink 和 Spark 区别 应用上: Flink 多用于处理流数据;Spark 多用于处理批数据 底层上: Flink 底层是持续流模型,有类似的 Map 端(上游)和 Re
scala Flink ① <概述>特点,应用场景,组成,处理模型,选型 <快速应用> Java及Scala版WCount <体系结构>角色,架构 <安装部署>StandAlone 模式 欢乐多多 发表于2024-05-15 浏览5710 评论0 目录 第一部分 Flink 概述 第 1 节 什么是 Flink 第 2 节 Flink 特点 第 3 节 Flink 应用场景 3.1 事务型处理 3.2 分析型处理 第 4 节 Flink 核心组成及生态发展 4.1 Flink核心组成 4.2 Flink生态发展 第 5 节 Flink 处理模型:流处理与批处理 第 6 节 流处理引擎的技术选型 第二部分 Flink快速应用 第 1 节 单词统计案例(批数据) 1.1 需求 1.2 代码实现 第 2 节
scala 在实践中学习Spark计算框架(01)(spark基于什么计算框架) haibao 发表于2024-05-15 浏览5050 评论0 第 1 章:大数据技术概述【理论篇】 1.大数据时代 · 三次信息化浪潮 信息化浪潮 发生时间 标志 解决问题 代表企业 第一次浪潮 1980年前后 个人计算机 信息处理 Inter、AMD、IBM、苹果、微软、联想、戴尔、惠普等 第二次浪潮 1995年前后 互联网 信息传输 雅虎、谷歌、阿里巴巴、百度、腾讯等 第三次浪潮 2010年前后 物联网、云计算、大数据 信息爆炸 将涌现出一批新的市场标杆企业 ·必要性: 1.存储设备容量不断增加、2.CPU处理能力大幅提升
scala Spark Transformation 算子总结笔记 HYH 发表于2024-05-15 浏览5210 评论0 简介:由于本篇文章写的内容多,且杂,加上本人在写的过程中还加入了大量解释,为此本篇文章会设置成粉丝可见,请谅解! 本篇文章主要包含了Spark Transformation 算子的value算子( 1、map()映射 2、mapPartitions()以分区为单位执行Map map()和mapPartition()的区别: 3、mapPartitionsWithIndex()带分区号 4、flatMap()扁平化 6、groupBy()分组(包含四种方法取首字母) 7、GroupBy()之
scala 升级Spark 3.2的包冲突记录(spark jar包冲突) 办公资源 发表于2024-05-15 浏览6556 评论0 1.java.lang.NoSuchMethodError: com.fasterxml.jackson.databind.JsonMappingException.<init>(Ljava/io/Closeable;Ljava/lang/String;)V 11:13:16.370 [Driver] ERROR org.apache.spark.deploy.yarn.ApplicationMaster - User class threw exception: java.lan
html5教程 AES-256-CBC 加密解密(AES-256加密) daimoway 发表于2024-05-15 浏览9958 评论0 //AES加密/解密 //在线AES加密解密工具。 // AES采用对称分组密码体制, // 密钥长度支持为128/192/256bits。 // 用户密钥长度不足时,平台将以0x00自动填充。 // IV也一样,自动填充,超出部分将被忽略。 // 加密时会将明文数据按16byte进行分组,
后端 PySpark | PySpark库 | 本机开发环境搭建 | 分布式代码执行分析(pyspark环境配置) xinyu590 发表于2024-05-15 浏览8958 评论0 传送门: 视频地址:黑马程序员Spark全套视频教程 1.PySpark基础入门(一) 2.PySpark基础入门(二) 3.PySpark核心编程(一) 4.PySpark核心编程(二) 5.PySaprk——SparkSQL学习(一) 6.PySaprk——SparkSQL学习(二) 7.Spark综合案例——零售业务统计分析 8. Spark3新特性及核心概念(背) 一、PySpark库 1.框架与类库 类库:—堆别人写好的代码,你可以导入进行使用。PySpa
scala Spark整理:任务提交源码解析-part1 nmgtjkjyxgs 发表于2024-05-14 浏览7738 评论0 1,Spark任务提交入口: 在脚本提交与java类提交,都会调用 org.apache.spark.deploy.SparkSubmit 类 main方法: 2,调用doSubmit方法: 3,构建SparkSubmitArguments对象(Spark任务提交的参数解析) Spark运行时的参数: 参数属性: 在这里插入代码片var master: String = null var deployMode: String = null var executorM
scala Spark RDD算子详解(spark rdd 算子) 冬时茗 发表于2024-05-14 浏览6052 评论0 RDD方法=>RDD算子(Operator 操作) RDD的方法和Scala集合对象的方法不一样,集合对象的方法都是在同一个节点的内存中完成的。 RDD的方法可以将计算逻辑发送到Executor端(分布式节点)执行。为了区分不同的处理效果,所以将RDD的方法称之为算子。RDD的方法外部的操作都是在Driver端执行的,而方法内部的逻辑代码是在Executor端执行。算子字面看还是以计算为主,RDD不存放数据 转换算子(Transformation):功能的补充和封装,将旧的RD
scala 像写SQL一样去处理内存中的数据,SparkSQL入门教程 myus? 发表于2024-05-14 浏览8146 评论0 (一)概述 SparkSQL可以理解为在原生的RDD上做的一层封装,通过SparkSQL可以在scala和java中写SQL语句,并将结果作为Dataset/DataFrame返回。简单来讲,SparkSQL可以让我们像写SQL一样去处理内存中的数据。 Dataset是一个数据的分布式集合,是Spark1.6之后新增的接口,它提供了RDD的优点和SparkSQL优化执行引擎的优点,一个Dataset相当于RDD+Schema的结合。 Dataset的底层封装是RDD,当RDD的泛型是Ro
django 面经 - OpenStack(Docker、Django、K8S、SDN)知识点 乄 发表于2024-05-14 浏览4449 评论0 概述 云计算是一种采用按量付费的模式,基于虚拟化技术,将相应计算资源(如网络、存储等)池化后,提供便捷的、高可用的、高扩展性的、按需的服务(如计算、存储、应用程序和其他 IT 资源)。 云计算基本特征: 自主服务:可按需的获取云端的相应资源(主要指公有云); 网路访问:可随时随地使用任何联网终端设备接入云端从而使用相应资源。 资源池化: 快速弹性:可方便、快捷地按需获取和释放计算资源。 按量计费: 常见的部署模式 公有云 私有云 社区云 混合云 三种服务模式 IaaS