×

scala

PySpark与GraphFrames的安装与使用(pyspark graphframe)

百度用户45065 百度用户45065 发表于2024-05-15 浏览18321 评论0
PySpark环境搭建 配置hadoop spark访问本地文件并执行运算时,可能会遇到权限问题或是dll错误。这是因为spark需要使用到Hadoop的winutils和hadoop.dll,首先我们必须配置好Hadoop相关的环境。可以到github下载:https://github.com/4ttty/winutils gitcode提供了镜像加速:https://gitcode.net/mirrors/4ttty/winutils 我选择了使用这个仓库提供的最高的Hadoop

scala

day82 Flink 安装 Source 算子

hasaki hasaki 发表于2024-05-15 浏览7191 评论0
I know, i know 地球另一端有你陪我 一、Flink Apache Flink是一个框架和分布式处理引擎,用于对无界和有界数据流进行有状态计算。Flink设计为在所有常见的集群环境中运行,以内存速度和任何规模执行计算。 可以对标 Spark,一个擅于流处理,一个擅于批处理 1、Flink 和 Spark 区别 应用上: Flink 多用于处理流数据;Spark 多用于处理批数据 底层上: Flink 底层是持续流模型,有类似的 Map 端(上游)和 Re

scala

Flink ① <概述>特点,应用场景,组成,处理模型,选型 <快速应用> Java及Scala版WCount <体系结构>角色,架构 <安装部署>StandAlone 模式

欢乐多多 欢乐多多 发表于2024-05-15 浏览5710 评论0
目录 第一部分 Flink 概述 第 1 节 什么是 Flink 第 2 节 Flink 特点 第 3 节 Flink 应用场景 3.1 事务型处理 3.2 分析型处理 第 4 节 Flink 核心组成及生态发展 4.1 Flink核心组成 4.2 Flink生态发展 第 5 节 Flink 处理模型:流处理与批处理 第 6 节 流处理引擎的技术选型 第二部分 Flink快速应用 第 1 节 单词统计案例(批数据) 1.1 需求 1.2 代码实现 第 2 节

scala

在实践中学习Spark计算框架(01)(spark基于什么计算框架)

haibao haibao 发表于2024-05-15 浏览5050 评论0
第 1 章:大数据技术概述【理论篇】 1.大数据时代 · 三次信息化浪潮 信息化浪潮 发生时间 标志 解决问题 代表企业 第一次浪潮 1980年前后 个人计算机 信息处理 Inter、AMD、IBM、苹果、微软、联想、戴尔、惠普等 第二次浪潮 1995年前后 互联网 信息传输 雅虎、谷歌、阿里巴巴、百度、腾讯等 第三次浪潮 2010年前后 物联网、云计算、大数据 信息爆炸 将涌现出一批新的市场标杆企业 ·必要性: 1.存储设备容量不断增加、2.CPU处理能力大幅提升

scala

Spark Transformation 算子总结笔记

HYH HYH 发表于2024-05-15 浏览5210 评论0
简介:由于本篇文章写的内容多,且杂,加上本人在写的过程中还加入了大量解释,为此本篇文章会设置成粉丝可见,请谅解! 本篇文章主要包含了Spark Transformation 算子的value算子( 1、map()映射 2、mapPartitions()以分区为单位执行Map map()和mapPartition()的区别: 3、mapPartitionsWithIndex()带分区号 4、flatMap()扁平化 6、groupBy()分组(包含四种方法取首字母) 7、GroupBy()之

html5教程

AES-256-CBC 加密解密(AES-256加密)

daimoway daimoway 发表于2024-05-15 浏览9958 评论0
 //AES加密/解密         //在线AES加密解密工具。         //            AES采用对称分组密码体制,         //            密钥长度支持为128/192/256bits。         //            用户密钥长度不足时,平台将以0x00自动填充。         //            IV也一样,自动填充,超出部分将被忽略。         //            加密时会将明文数据按16byte进行分组,

后端

PySpark | PySpark库 | 本机开发环境搭建 | 分布式代码执行分析(pyspark环境配置)

xinyu590 xinyu590 发表于2024-05-15 浏览8958 评论0
传送门: 视频地址:黑马程序员Spark全套视频教程 1.PySpark基础入门(一) 2.PySpark基础入门(二) 3.PySpark核心编程(一) 4.PySpark核心编程(二) 5.PySaprk——SparkSQL学习(一) 6.PySaprk——SparkSQL学习(二) 7.Spark综合案例——零售业务统计分析 8. Spark3新特性及核心概念(背) 一、PySpark库 1.框架与类库 类库:—堆别人写好的代码,你可以导入进行使用。PySpa

scala

Spark RDD算子详解(spark rdd 算子)

冬时茗 冬时茗 发表于2024-05-14 浏览6052 评论0
RDD方法=>RDD算子(Operator 操作) RDD的方法和Scala集合对象的方法不一样,集合对象的方法都是在同一个节点的内存中完成的。 RDD的方法可以将计算逻辑发送到Executor端(分布式节点)执行。为了区分不同的处理效果,所以将RDD的方法称之为算子。RDD的方法外部的操作都是在Driver端执行的,而方法内部的逻辑代码是在Executor端执行。算子字面看还是以计算为主,RDD不存放数据 转换算子(Transformation):功能的补充和封装,将旧的RD

scala

像写SQL一样去处理内存中的数据,SparkSQL入门教程

myus? myus? 发表于2024-05-14 浏览8146 评论0
(一)概述 SparkSQL可以理解为在原生的RDD上做的一层封装,通过SparkSQL可以在scala和java中写SQL语句,并将结果作为Dataset/DataFrame返回。简单来讲,SparkSQL可以让我们像写SQL一样去处理内存中的数据。 Dataset是一个数据的分布式集合,是Spark1.6之后新增的接口,它提供了RDD的优点和SparkSQL优化执行引擎的优点,一个Dataset相当于RDD+Schema的结合。 Dataset的底层封装是RDD,当RDD的泛型是Ro

django

面经 - OpenStack(Docker、Django、K8S、SDN)知识点

乄 发表于2024-05-14 浏览4449 评论0
概述 云计算是一种采用按量付费的模式,基于虚拟化技术,将相应计算资源(如网络、存储等)池化后,提供便捷的、高可用的、高扩展性的、按需的服务(如计算、存储、应用程序和其他 IT 资源)。 云计算基本特征: 自主服务:可按需的获取云端的相应资源(主要指公有云); 网路访问:可随时随地使用任何联网终端设备接入云端从而使用相应资源。 资源池化: 快速弹性:可方便、快捷地按需获取和释放计算资源。 按量计费: 常见的部署模式 公有云 私有云 社区云 混合云 三种服务模式 IaaS