×

scala

Spark列级血缘(字段级别血缘)开发与实现(sparksql 字段血缘)

我 发表于2024-06-10 浏览7302 评论0
介绍 背景 由于一直苦于尝试追踪spark的列级血缘,所以出于个人目的对spark源代码进行了修改,并且在github上独立了一个项目(Ushas)。 传统数据治理中针对spark的表级别血缘判断虽然能一定程度上解决数据的依赖关系,但是对于精确到字段之间的关系识别则显得捉襟见肘。开发此项目的用意是为了能够加强spark在列级血缘上的追踪优势。 知识铺垫 dataset中的逻辑计划实现 Ushas 主要在spark-sql-catalyst和spark-sql-hive模块进行了

scala

Spark综合学习笔记(二)Spark内核原理(spark内核机制解析)

自知之明 自知之明 发表于2024-06-10 浏览4290 评论0
学习致谢: https://www.bilibili.com/video/BV1Xz4y1m7cv?p=32 一、依赖关系 宽依赖:有shuffle 子RDD的一个分区会依赖于父RDD的多个分区–错误 父EDD的一个分区会被子RDD的多个分区所依赖–正确窄依赖:没有shuffle 子RDD的一个分区会依赖于父RDD的1个分区–错误 父EDD的一个分区会被子RDD的1个分区所依赖–正确为什么要区分宽窄依赖 对窄依赖:并行化+容错 宽依赖:进行阶段划分,(shuffle后的阶段需要等待sh

scala

Spark中的RDD函数【基本函数、分区函数、重分区函数、聚合函数、关联函数】详解

百度用户79129 百度用户79129 发表于2024-06-10 浏览4650 评论0
基本函数 RDD中的map、filter、flatMap以及foreach等函数作为最基本的函数,都是RDD中的每个元素进行操作,将元素传递到函数中进行转换。 函数名 用法 解释 map 函数 map(f:T=>U) : RDD[T]=>RDD[U] 表示将RDD经由某一函数f后,转变成另一个RDD。 flatMap 函数 flatMap(f:T=>Seq[U]) : RDD[T]=>RDD[U]) 表示将RDD由某一函数f后,转变为一个新

scala

基于Scala版本的TMDB大数据电影分析项目

枫叶?飘飘 枫叶?飘飘 发表于2024-06-09 浏览5205 评论0
怒发冲冠为红颜         基于kaggle的TMDB电影数据集的数据分析,该数据集包括了大约5000部电影的相关信息。先来看一下TMDB电影数据集的数据           该数据集其实是csv文件,里面记录这美国这些年上映的电影,以及电影的种类,观看人数,主题,以及打分等详细信息。         先来看一下各个字段的意义         不过需要注意的是,在csv文件里面并没有表头,也就是说并没有上面字段。所以在使用Spark SQL处理该数据集的时候,

scala

Spark学习笔记[1]-scala环境安装与基本语法(scala编写spark程序)

x176 x176 发表于2024-06-09 浏览4495 评论0
Spark学习笔记[1]-scala环境安装与基本语法   正所谓工欲善其事必先利其器,Spark的开发语言不是java而是scala,虽然都是运行于JVM,但是两门语言的基本特性还是有些不一样,这里说明一个概念,JVM不等于JAVA,任何语言只要能编译出符合JVM规范的class文件,都可以运行在JVM上   相比于java,scala语言更加简简洁,且其实函数式编程语言,函数式变成语言的含义就是任何函数都是变量,有点类似于C++中的函数指针,由于语法很简洁,所以带来的问题就是相比于J

scala

Spark RDD 论文详解(三)Spark 编程接口(spark对rdd的操作)

启程广告 启程广告 发表于2024-06-02 浏览7445 评论0
前言 本文隶属于专栏《1000个问题搞定大数据技术体系》,该专栏为笔者原创,引用请注明来源,不足和错误之处请在评论区帮忙指出,谢谢! 本专栏目录结构和参考文献请见1000个问题搞定大数据技术体系 目录 Spark RDD 论文详解(一)摘要和介绍 Spark RDD 论文详解(二)RDDs Spark RDD 论文详解(三)Spark 编程接口 Spark RDD 论文详解(四)表达 RDDs Spark RDD 论文详解(五)实现 Spark RDD 论文详解

MSSQL教程

用结构化思维吃透MySQL面试题——再也不怕连环问(mysql面试题及答案)

乄 发表于2024-06-02 浏览3395 评论0
面试经常碰到的两个问题: 1、很多人应该有过面试大厂的经历,不论你从事的是前端、后端还是大数据。即使你认为与你毫无关系,甚至一辈子可能也用不到Mysql, 但是面试官依然会问你关于MYSQL的问题呢?为什么? 2、面试官的各种连环问,让很多面试者瑟瑟发抖,辛辛苦苦死记硬背了几百道题,一着急,忘记的一干二净,叫天不应,叫地不灵~~只有绝望二字。为什么会这样? 目录 一、基础篇(考察你的基本功) 第1问:char 和 varchar 四连问 第2问:int(10

scala

五-中, Spark 算子 吐血总结(转化+行动算子共三十七个)(spark的算子)

陈晗 陈晗 发表于2024-06-02 浏览5186 评论0
五-中, Spark 算子吐血总结 5.1.4.3 RDD 转换算子(Transformation) 什么是算子? 在流处理、交互式查询中有个常用的概念是“算子”,在英文中被成为“Operation”,在数学上可以解释为一个函数空间到另一个函数空间上的映射O:X->X,其实就是一个处理单元,往往是指一个函数,在使用算子时往往会有输入和输出,算子则完成相应数据的转化,比如:Group、Sort等都是算子。 从大方向来说, Spark算子(RDD

scala

大数据之Spark(大数据之下还有隐私吗)

任廷华 任廷华 发表于2024-06-02 浏览5671 评论0
Spark介绍 什么是Spark 专为大规模数据处理而设计的快速通用的计算引擎 类 Hadoop MapReduce 的通用并行计算框架 拥有 Hadoop MapReduce 所具有的优点 但不同于 MapReduce 的是 Job 中间输出结果可以缓存在内存中,从而不再需要读写 HDFS ,减少磁盘数据交互 因此 Spark 能更好地适用于数据挖掘与机器学习等需要迭代的算法 Spark 是 Scala 编写,方便快速编程 Spark与MR的区别 都是分布式计算框架,

scala

Apache Livy 安装部署使用示例

刚需队长? 刚需队长? 发表于2024-06-02 浏览7359 评论0
1. Apache Livy 简介 官网:https://livy.apache.org/ Livy是一个提供rest接口和spark集群交互的服务。它可以提交spark job或者spark一段代码,同步或者异步的返回结果;也提供sparkcontext的管理,通过restfull接口或RPC客户端库。Livy也简化了与spark与应用服务的交互,这允许通过web/mobile与spark的使用交互。其他特点还包含: 长时间运行的SparkContext,允许多个spark