×

scala

源码解析Spark各个ShuffleWriter的实现机制(四)——UnsafeShuffleWriter

?? ?? 发表于2024-06-26 浏览5589 评论0
基于3.2源码。 UnsafeShuffleWriter的应用场景 它用在对序列化数据直接排序的场景,避免了将数据反序列化后排序,再序列化的开销。它是对数据的分区id进行排序,并不会对数据的key排序。 这个shuffle方式大量使用到了sun.misc.Unsafe来与操作系统打交道,直接操作内存。 实现 整体流程 UnsafeShuffleWriter的实现封装地看起来十分简单: // UnsafeShuffleWriter public void write(scala

scala

spark执行优化——依赖上传到HDFS二(-conf spark.yarn.dist.jars或者--jars 的使用)

HT。 HT。 发表于2024-06-26 浏览6450 评论0
1.说明 之前整理过一篇类似文章,但是这个spark.yarn.jar配置的目录最好只是放spark jars目录下的jar包,如果放入其他的jar包,很大概率会有冲突,而且如果项目比较多,jar包引入的内容版本不尽相同,也不太利于管理。题主这里有一个spark的分析项目,引入了很多依赖,如果只是配置了spark.yarn.jars,上传jar包的过程仍然很慢,所以还是需要把项目的依赖jar包上传到HDFS,经过查阅资料和翻查官网,发现了application-jar , --jars 都是

scala

Spark详细总结(spark总结与分析)

似水流年 似水流年 发表于2024-06-26 浏览7524 评论0
一:算子统计 flatmap map mapValues 一:Spark简介 park和Hadoop的根本差异是多个作业之间的数据通信问题 : Spark多个作业之间数据通信是基于内存,而Hadoop是基于磁盘。  Spark的缓存机制比HDFS的缓存机制高效。 二:wordCount()分析 (flatmap() 与 map()) flatmap与map我的理解: 读取数据是一行一行读的,(如果每一行的数据源是 

scala

大数据必经之路-认识Spark(大数据发展脉络)

LY LY 发表于2024-06-25 浏览5617 评论0
大数据之——认识spark 什么是spark? wiki:Apache Spark是一个开源集群运算框架,最初是由加州大学柏克莱分校AMPLab所开发。相对于Hadoop的MapReduce会在运行完工作后将中介资料存放到磁盘中,Spark使用了存储器内运算技术,能在资料尚未写入硬盘时即在存储器内分析运算。Spark在存储器内运行程序的运算速度能做到比Hadoop MapReduce的运算速度快上100倍,即便是运行程序于硬盘时,Spark也能快上10倍速度。[1]Spark允许用户

scala

sparkSql数据离线处理--整理记录(spark 离线数据处理)

ycjiaqi ycjiaqi 发表于2024-06-25 浏览9350 评论0
sparkSql数据离线处理 前言:本文作为本人学习sparkSql离线数据抽取,离线数据处理的学习整理记录,文中参考博客均附上原文链接。 一、Hive环境准备 1、配置文件准备: /opt/hive/conf/hive-site.xml:(2021/12/31修改,添加了&useSSL=false&useUnicode=true&characterEncoding=utf8支持中文编码) <?xml version="1.0" encoding=

scala

Flink(flink原理、实战与性能优化)

海子 海子 发表于2024-06-25 浏览5344 评论0
1.概念 用Java和Scala编写的流处理框架和分布式处理引擎 对于无界和有界数据流进行有状态计算(无界,实时、有界,离线 批处理数据) 在所有常见集群环境运行,以内存速度和任何规模执行计算 达到实时流处理引擎全部标准要求(低延迟、高吞吐量、容错性、窗口时间语义化) 实时和批处理数据过程,抽象成三个过程 Source->Transform->Sink 2.架构设计 物理部署层-deploy层 支持多种部署模式:本地部署、集群部署(Standalone/Yar

scala

Spark Streaming

梅兰(信达图文广告18246481123) 梅兰(信达图文广告18246481123) 发表于2024-06-25 浏览7634 评论0
Spark Streaming介绍 随着大数据的发展,人们对大数据的处理要求也越来越高,传统的MapReduce等批处理框架在某些特定领域(如实时用户推荐、用户行为分析)已经无法满足人们对实时性的需求,因此诞生了一批如S4、Storm的流式的、实时计算框架。而Spark由于其优秀的调度机制,快速的分布式计算能力,能够以极快的速度进行迭代运算。正是由于Spark的这些优势,使得Spark能够在某种程度上进行实时处理,Spark Streaming正是构建在此之上的流式框架。 Spark Strea

scala

一天学完spark的Scala基础语法教程十三、文件IO操作(idea版本)(spark编程基础scala)

一叶知秋 一叶知秋 发表于2024-06-25 浏览10774 评论0
📋前言📋 💝博客主页:红目香薰_CSDN博客-大数据,计算机理论,MySQL领域博主💝 ✍本文由在下【红目香薰】原创,首发于CSDN✍ 🤗2022年最大愿望:【服务百万技术人次】🤗 💝初始环境地址:【spark环境搭建(idea版本)_红目香薰-CSDN博客】💝 环境需求 环境:win10 开发工具:IntelliJ IDEA 2021.2 maven版本:3.6.3 目录 📋前言📋 环境需求 Scala 文件 I/O 控制台读取录入信息