big data 第20页 - 星花园站长资源网

PyQt4 PySide 输入对话框 脚本之家

Thank you for every other great post. Wh...

...

还有 59 人发表了评论加入8903人围观

scala

Spark列级血缘(字段级别血缘)开发与实现（sparksql 字段血缘）

我 发表于2024-06-10 浏览7302 评论0

介绍背景由于一直苦于尝试追踪spark的列级血缘，所以出于个人目的对spark源代码进行了修改，并且在github上独立了一个项目(Ushas)。传统数据治理中针对spark的表级别血缘判断虽然能一定程度上解决数据的依赖关系，但是对于精确到字段之间的关系识别则显得捉襟见肘。开发此项目的用意是为了能够加强spark在列级血缘上的追踪优势。知识铺垫 dataset中的逻辑计划实现 Ushas 主要在spark-sql-catalyst和spark-sql-hive模块进行了

scala

Spark综合学习笔记（二）Spark内核原理（spark内核机制解析）

自知之明 发表于2024-06-10 浏览4290 评论0

学习致谢： https://www.bilibili.com/video/BV1Xz4y1m7cv?p=32 一、依赖关系宽依赖：有shuffle 子RDD的一个分区会依赖于父RDD的多个分区–错误父EDD的一个分区会被子RDD的多个分区所依赖–正确窄依赖：没有shuffle 子RDD的一个分区会依赖于父RDD的1个分区–错误父EDD的一个分区会被子RDD的1个分区所依赖–正确为什么要区分宽窄依赖对窄依赖：并行化+容错宽依赖：进行阶段划分，（shuffle后的阶段需要等待sh

scala

Spark中的RDD函数【基本函数、分区函数、重分区函数、聚合函数、关联函数】详解

百度用户79129 发表于2024-06-10 浏览4650 评论0

基本函数 RDD中的map、filter、flatMap以及foreach等函数作为最基本的函数，都是RDD中的每个元素进行操作，将元素传递到函数中进行转换。函数名用法解释 map 函数 map(f:T=>U) : RDD[T]=>RDD[U] 表示将RDD经由某一函数f后，转变成另一个RDD。 flatMap 函数 flatMap(f:T=>Seq[U]) : RDD[T]=>RDD[U]) 表示将RDD由某一函数f后，转变为一个新

scala

[Scala] Spark将RDD中某一列下的数组拆分成多列（spark拆分成多个rdd）

归去来兮 发表于2024-06-09 浏览6426 评论0

val data: RDD[String] val data2 = data.map(x => { val y = x.split("\\|\\|", -1) y }) val data3 = data2.toDF() data3.show(10) +--------------------+ | value| +--------------------+ |[66,................]| |[81,...

scala

基于Scala版本的TMDB大数据电影分析项目

枫叶?飘飘 发表于2024-06-09 浏览5205 评论0

怒发冲冠为红颜基于kaggle的TMDB电影数据集的数据分析，该数据集包括了大约5000部电影的相关信息。先来看一下TMDB电影数据集的数据该数据集其实是csv文件，里面记录这美国这些年上映的电影，以及电影的种类，观看人数，主题，以及打分等详细信息。先来看一下各个字段的意义不过需要注意的是，在csv文件里面并没有表头，也就是说并没有上面字段。所以在使用Spark SQL处理该数据集的时候，

scala

Spark学习笔记[1]-scala环境安装与基本语法（scala编写spark程序）

x176 发表于2024-06-09 浏览4495 评论0

Spark学习笔记[1]-scala环境安装与基本语法正所谓工欲善其事必先利其器，Spark的开发语言不是java而是scala，虽然都是运行于JVM，但是两门语言的基本特性还是有些不一样，这里说明一个概念，JVM不等于JAVA，任何语言只要能编译出符合JVM规范的class文件，都可以运行在JVM上相比于java，scala语言更加简简洁，且其实函数式编程语言，函数式变成语言的含义就是任何函数都是变量，有点类似于C++中的函数指针，由于语法很简洁，所以带来的问题就是相比于J

scala

Spark RDD 论文详解（三）Spark 编程接口（spark对rdd的操作）

启程广告 发表于2024-06-02 浏览7445 评论0

前言本文隶属于专栏《1000个问题搞定大数据技术体系》，该专栏为笔者原创，引用请注明来源，不足和错误之处请在评论区帮忙指出，谢谢！本专栏目录结构和参考文献请见1000个问题搞定大数据技术体系目录 Spark RDD 论文详解（一）摘要和介绍 Spark RDD 论文详解（二）RDDs Spark RDD 论文详解（三）Spark 编程接口 Spark RDD 论文详解（四）表达 RDDs Spark RDD 论文详解（五）实现 Spark RDD 论文详解

MSSQL教程

用结构化思维吃透MySQL面试题——再也不怕连环问（mysql面试题及答案）

乄 发表于2024-06-02 浏览3395 评论0

面试经常碰到的两个问题： 1、很多人应该有过面试大厂的经历，不论你从事的是前端、后端还是大数据。即使你认为与你毫无关系，甚至一辈子可能也用不到Mysql, 但是面试官依然会问你关于MYSQL的问题呢？为什么？ 2、面试官的各种连环问，让很多面试者瑟瑟发抖，辛辛苦苦死记硬背了几百道题，一着急，忘记的一干二净，叫天不应，叫地不灵~~只有绝望二字。为什么会这样？目录一、基础篇(考察你的基本功) 第1问：char 和 varchar 四连问第2问：int(10

scala

五-中, Spark 算子吐血总结(转化+行动算子共三十七个)（spark的算子）

陈晗 发表于2024-06-02 浏览5186 评论0

五-中, Spark 算子吐血总结 5.1.4.3 RDD 转换算子(Transformation) 什么是算子? 在流处理、交互式查询中有个常用的概念是“算子”，在英文中被成为“Operation”，在数学上可以解释为一个函数空间到另一个函数空间上的映射O：X->X，其实就是一个处理单元，往往是指一个函数，在使用算子时往往会有输入和输出，算子则完成相应数据的转化，比如：Group、Sort等都是算子。从大方向来说, Spark算子(RDD

scala

【Spark】WordCount的多种实现方式

天道 发表于2024-06-02 浏览5017 评论0

准备工作查看数据创建SparkContext val spark = new SparkConf().setMaster("local[6]").setAppName("wordCount") val sc = new SparkContext(spark) val rdd = sc.textFile("data/wordcount.txt") 使用groupBy /** * 使用groupBy */ @Test def test

scala

大数据之Spark（大数据之下还有隐私吗）

任廷华 发表于2024-06-02 浏览5671 评论0

Spark介绍什么是Spark 专为大规模数据处理而设计的快速通用的计算引擎类 Hadoop MapReduce 的通用并行计算框架拥有 Hadoop MapReduce 所具有的优点但不同于 MapReduce 的是 Job 中间输出结果可以缓存在内存中，从而不再需要读写 HDFS ，减少磁盘数据交互因此 Spark 能更好地适用于数据挖掘与机器学习等需要迭代的算法 Spark 是 Scala 编写，方便快速编程 Spark与MR的区别都是分布式计算框架，

scala

Apache Livy 安装部署使用示例

刚需队长? 发表于2024-06-02 浏览7359 评论0

1. Apache Livy 简介官网：https://livy.apache.org/ Livy是一个提供rest接口和spark集群交互的服务。它可以提交spark job或者spark一段代码,同步或者异步的返回结果;也提供sparkcontext的管理,通过restfull接口或RPC客户端库。Livy也简化了与spark与应用服务的交互,这允许通过web/mobile与spark的使用交互。其他特点还包含: 长时间运行的SparkContext,允许多个spark

« 2023年9月 »
一	二	三	四	五	六	日
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30

控制面板

您好，欢迎到访网站！
查看权限

网站分类

最近发表

最新留言

文章归档

2022年2月 (2538)

友情链接