×

scala

数据湖之Hudi(13):使用Spark删除Hudi中的数据

xchenhao xchenhao 发表于2024-06-01 浏览6223 评论0
目录 0. 相关文章链接 1. 环境准备和数据准备 2. Maven依赖 3. 核心代码 0. 相关文章链接 数据湖 文章汇总 1. 环境准备和数据准备 对Hudi的环境准备和数据准备,可以参考博主的另一篇博文,这里就不多描述了,博文连接:数据湖之Hudi(9):使用Spark向Hudi中插入数据 2. Maven依赖 在另一篇博文中有Maven依赖,但在这里还是补充一下 <repositories> <repository>

scala

Spark部署在Yarn集群(spark提交到yarn集群)

lcd25 lcd25 发表于2024-06-01 浏览5170 评论0
Spark博大精深,不是一朝一日能搞明白的。。。以后的稿子可能不会写的灰常详细了,相信需要参考的读者懂的都懂。。。 需要查看笔者之前的稿子。。。Spark依赖的东西太多了。。。本文依旧是基于之前搭建的虚拟机集群。 为了节省部署时间,对某些配置顺序做了修改。 上传及解压 cd /export/software/ rz #上传spark-2.4.5-bin-hadoop2.7.tgz tar -zxvf spark-2.4.5-bin-hadoop2.7.tgz -C /expor

scala

RDD转换为DataFrame(rdd转换为dataframe的两种方)

無言以對 無言以對 发表于2024-06-01 浏览6480 评论0
        spark官方提供了两种方法实现从RDD转换到DataFrame。第一种方法是利用反射机制来推断包含特定类型对象的Schema,这种方式适用于对已知的数据结构的RDD转换;第二种方法通过编程接口构造一个 Schema ,并将其应用在已知的RDD数据中。 (一)反射机制推断Schema         在Windows系统下开发Scala 代码,可以使用本地环境测试,因此首先需要在本地磁  盘准备文本数据文件,这里将HD FS中的/spark/person.txt文件下载到本地

Golang教程

golang安装步骤(golang安装配置)

梅菜扣肉 梅菜扣肉 发表于2024-06-01 浏览9669 评论0
1.首先找到资源下载地址: https://studygolang.com/dl 2.下载完毕后(下图是下载好的文件) 新建一个文件夹install_path,当作安装目录 此处的install_file 是下载的资源文件,install_path是安装后产生的文件 3.双击打开下载好的文件,一路next ,自定义安装路径 (这里我的安装路径是install_path) 4.widows 版本的不需要我们自己手动配置环境变量 安装过程中,系统自动为我们配置了环境变量 到我们的环境变量

scala

Spark环境搭建安装及配置详细步骤(保姆教程)(spark安装与配置)

源码代售 源码代售 发表于2024-05-31 浏览6899 评论0
Spark 作为一个数据处理框架和计算引擎 1 Spark-Local 模式 1.1 解压缩文件  将 spark-2.1.1-bin-hadoop3.2.tgz 文件上传到 Linux 并解压缩,放置在指定位置,路径中。  tar -zxvf spark-2.1.1-bin-hadoop2.7.tgz -C /opt/apps/ cd /opt/apps/ mv spark-2.1.1-bin-hadoop2.7 spark-local  1.2 启动 Local 环境  1) 进入

scala

大数据技术Flink开发环境准备和API代码案例(大数据开发之Flink从入门到精通)

IPASS IPASS 发表于2024-05-31 浏览5457 评论0
1、Flink简介 看到下面这只可爱的松鼠,显然它不仅是一直普通的松鼠,它还是Flink的项目logo,我们都知道计算机领域很多应用和项目都会使用一只动物作为代表。先来看看这只小动物的意义! 在德语中,Flink 一词表示快速和灵巧,项目采用一只松鼠的彩色图案作为 logo与之呼应,因为柏林的松鼠有一种迷人的红棕色,而 Flink 的松鼠 logo 拥有可爱的尾巴,尾巴的颜色与 Apache 软件基金会的 logo 颜色相呼应,也就是说,这是一只 Apache 风格的松鼠

scala

Spark学习笔记02:Scala安装(spark scala教程)

indexie indexie 发表于2024-05-31 浏览8156 评论0
目录 一、在线运行Scala 二、选择Scala版本 三、在Windows上安装Scala (一)、到Scala官网下载Scala ​(二)、安装Scala (三)、配置Scala环境变量 (四)、测试Scala是否安装成功 1、查看Scala版本 2、启动Scala,执行语句 五、在Linux上安装Scala (一)、到Scala官网下载Scala (二)、安装Scala 1、上传scala安装包到master虚拟机 2、解压scala安装包到指定目录 (三)、配

后端

HDFS的读写流程步骤(附图文解析)(HDFS读写流程)

森宇 森宇 发表于2024-05-31 浏览15631 评论0
1、HDFS的写入流程: 详细步骤: client 发起文件上传请求,通过 RPC 与 NameNode 建立通讯,NameNode 检查目标文件是否已存在,父目录是否存在,返回是否可以上传; client 请求第一个 block 该传输到哪些 DataNode 服务器上; NameNode 根据配置文件中指定的备份数量及副本放置策略进行文件分配,返回可用的 DataNode 的地址,如:A,B,C; client 请求3台 DataNode 中的一台A上传数据(本质上是一个 RPC

scala

安装Scala(安装Scala之前必须配置JDK)

朱朱朱、 朱朱朱、 发表于2024-05-31 浏览5039 评论0
一、选择Scala版本 在master虚拟机上安装Spark2.1.1 二、Windows上安装Scala 到Scala官网下载Scala (1)Scala2.11.12下载网址: https://www.scala-lang.org/download/2.11.12.html (2)单击单击【Scala-2.11.12.msi】超链接,将Scala下载下来 安装Scala (1)双击,进入安装向导,按提示进行操作,完成Scala的安装 配置Scala环境变量 (1)设置

scala

键值对操作(什么叫键值对)

?₂₀₀₁₁₁₀₁ ?₂₀₀₁₁₁₀₁ 发表于2024-05-31 浏览4983 评论0
1 Pair RDD 键值对RDD是Spark中许多操作所需要的常见数据类型。spark为包含键值对类型的RDD提供了一些专有的操作,这些RDD被称为pair RDD。比如,pair RDD提供reduceByKey()方法,可以分别归约每个键对应的数据。 在spark中有很多种创建pair RDD的方式,比如很多存储键值对的数据格式会在读取时直接返回由其健值对数据组成的pair RDD。此外,当需要把一个普通的RDD转为pair RDD时,可以调用map()函数来实现,传递的函数需

scala

明翰大数据Spark与机器学习笔记V0.1(持续更新)(大数据处理spark)

马斯 马斯 发表于2024-05-31 浏览4251 评论0
Spark https://spark.apache.org/docs Apache Spark as a central tool for mining and analytics in big data. Spark使用DAG(有向无环图)模型作为其执行模型, 并且主要使用内存计算的方式进行任务计算。 Spark基于一套统一的数据模型(RDD)和编程模型(Transformation/Action)。 Spark是Apache软件基金会的顶级项目, 在Hadoop Ma