big data 第3页 - 星花园站长资源网

基于3.2源码。 UnsafeShuffleWriter的应用场景它用在对序列化数据直接排序的场景，避免了将数据反序列化后排序，再序列化的开销。它是对数据的分区id进行排序，并不会对数据的key排序。这个shuffle方式大量使用到了sun.misc.Unsafe来与操作系统打交道，直接操作内存。实现整体流程 UnsafeShuffleWriter的实现封装地看起来十分简单： // UnsafeShuffleWriter public void write(scala

scala

flink启动报错：java.lang.NoClassDefFoundError: scala/collection/immutable/StringOps 解决方法

发表于2024-06-26 浏览6121 评论0

Exception in thread "main" java.lang.NoClassDefFoundError: scala/collection/immutable/StringOps at org.apache.flink.runtime.akka.AkkaUtils$.testDispatcherConfig(AkkaUtils.scala:374) at org.apache.flink.runtime.akka.AkkaUtils.testDispatcherCon

scala

spark执行优化——依赖上传到HDFS二(-conf spark.yarn.dist.jars或者--jars 的使用)

HT。发表于2024-06-26 浏览6450 评论0

1.说明之前整理过一篇类似文章，但是这个spark.yarn.jar配置的目录最好只是放spark jars目录下的jar包，如果放入其他的jar包，很大概率会有冲突，而且如果项目比较多，jar包引入的内容版本不尽相同，也不太利于管理。题主这里有一个spark的分析项目，引入了很多依赖，如果只是配置了spark.yarn.jars,上传jar包的过程仍然很慢，所以还是需要把项目的依赖jar包上传到HDFS,经过查阅资料和翻查官网，发现了application-jar , --jars 都是

scala

Spark详细总结（spark总结与分析）

似水流年 发表于2024-06-26 浏览7524 评论0

一：算子统计 flatmap map mapValues 一：Spark简介 park和Hadoop的根本差异是多个作业之间的数据通信问题 : Spark多个作业之间数据通信是基于内存，而Hadoop是基于磁盘。 Spark的缓存机制比HDFS的缓存机制高效。二：wordCount()分析 (flatmap() 与 map()) flatmap与map我的理解: 读取数据是一行一行读的，(如果每一行的数据源是

scala

Spark读取zip文件原理与详解（spark解压zip）

俱往矣 发表于2024-06-26 浏览6151 评论0

import java.io.{BufferedReader, InputStreamReader} import java.util.zip.ZipInputStream import org.apache.spark.input.PortableDataStream val dataAndPortableRDD = sc.binaryFiles("zipData path") val dataRDD = dataAndPortableRDD.flatMap { case (name

scala

Spark 源码解析（三） Saprk的组件三巨头初始化 TaskSchuduler,Backend,DAGScheduler

漂泊 发表于2024-06-25 浏览4229 评论0

当我们初始化SparkContext的时候会创建很多的组件这里详解一个 Spark的重要组件 TaskScheduler,Backend，DAGSCheduler val (sched, ts) = SparkContext.createTaskScheduler(this, master, deployMode) 进入到SparkContext的createTaskScheduler方法中进行模式匹配 // local模式略过 // standAlone 模式 case

scala

大数据必经之路-认识Spark（大数据发展脉络）

LY 发表于2024-06-25 浏览5617 评论0

大数据之——认识spark 什么是spark？ wiki：Apache Spark是一个开源集群运算框架，最初是由加州大学柏克莱分校AMPLab所开发。相对于Hadoop的MapReduce会在运行完工作后将中介资料存放到磁盘中，Spark使用了存储器内运算技术，能在资料尚未写入硬盘时即在存储器内分析运算。Spark在存储器内运行程序的运算速度能做到比Hadoop MapReduce的运算速度快上100倍，即便是运行程序于硬盘时，Spark也能快上10倍速度。[1]Spark允许用户

scala

sparkSql数据离线处理--整理记录（spark 离线数据处理）

ycjiaqi 发表于2024-06-25 浏览9350 评论0

sparkSql数据离线处理前言：本文作为本人学习sparkSql离线数据抽取，离线数据处理的学习整理记录，文中参考博客均附上原文链接。一、Hive环境准备 1、配置文件准备： /opt/hive/conf/hive-site.xml:(2021/12/31修改，添加了&useSSL=false&useUnicode=true&characterEncoding=utf8支持中文编码) <?xml version="1.0" encoding=

scala

Flink（flink原理、实战与性能优化）

海子 发表于2024-06-25 浏览5344 评论0

1.概念用Java和Scala编写的流处理框架和分布式处理引擎对于无界和有界数据流进行有状态计算（无界，实时、有界，离线批处理数据）在所有常见集群环境运行，以内存速度和任何规模执行计算达到实时流处理引擎全部标准要求（低延迟、高吞吐量、容错性、窗口时间语义化）实时和批处理数据过程，抽象成三个过程 Source->Transform->Sink 2.架构设计物理部署层-deploy层支持多种部署模式：本地部署、集群部署（Standalone/Yar

scala

Spark Streaming

梅兰（信达图文广告18246481123）发表于2024-06-25 浏览7634 评论0

Spark Streaming介绍随着大数据的发展，人们对大数据的处理要求也越来越高，传统的MapReduce等批处理框架在某些特定领域（如实时用户推荐、用户行为分析）已经无法满足人们对实时性的需求，因此诞生了一批如S4、Storm的流式的、实时计算框架。而Spark由于其优秀的调度机制，快速的分布式计算能力，能够以极快的速度进行迭代运算。正是由于Spark的这些优势，使得Spark能够在某种程度上进行实时处理，Spark Streaming正是构建在此之上的流式框架。 Spark Strea

scala

Flink sink doris案例（Doris flink）

kph 发表于2024-06-25 浏览9010 评论0

添加 flink-doris-connector 和必要的 Flink Maven 依赖此处参考官网的配置 Flink 1.13.* 及以前的版本 <dependency> <groupId>org.apache.flink</groupId> <artifactId>flink-java</artifactId> <version>${flink.version}</version&g

scala

一天学完spark的Scala基础语法教程十三、文件IO操作(idea版本)（spark编程基础scala）

一叶知秋 发表于2024-06-25 浏览10774 评论0

📋前言📋 💝博客主页：红目香薰_CSDN博客-大数据,计算机理论,MySQL领域博主💝 ✍本文由在下【红目香薰】原创，首发于CSDN✍ 🤗2022年最大愿望：【服务百万技术人次】🤗 💝初始环境地址：【spark环境搭建(idea版本)_红目香薰-CSDN博客】💝 环境需求环境：win10 开发工具：IntelliJ IDEA 2021.2 maven版本：3.6.3 目录 📋前言📋 环境需求 Scala 文件 I/O 控制台读取录入信息

ZBlogIt

Nice to meet you, too!

discuz 论坛 后台站长

https://www.cbdmd.com/cbd-gummies https...

scala

源码解析Spark各个ShuffleWriter的实现机制（四）——UnsafeShuffleWriter

?? 发表于2024-06-26 浏览5589 评论0

scala

flink启动报错：java.lang.NoClassDefFoundError: scala/collection/immutable/StringOps 解决方法

发表于2024-06-26 浏览6121 评论0

scala

spark执行优化——依赖上传到HDFS二(-conf spark.yarn.dist.jars或者--jars 的使用)

HT。发表于2024-06-26 浏览6450 评论0

scala

Spark详细总结（spark总结与分析）

似水流年 发表于2024-06-26 浏览7524 评论0

scala

Spark读取zip文件原理与详解（spark解压zip）

俱往矣 发表于2024-06-26 浏览6151 评论0

scala

Spark 源码解析（三） Saprk的组件三巨头初始化 TaskSchuduler,Backend,DAGScheduler

漂泊 发表于2024-06-25 浏览4229 评论0

scala

大数据必经之路-认识Spark（大数据发展脉络）

LY 发表于2024-06-25 浏览5617 评论0

scala

sparkSql数据离线处理--整理记录（spark 离线数据处理）

ycjiaqi 发表于2024-06-25 浏览9350 评论0

scala

Flink（flink原理、实战与性能优化）

海子 发表于2024-06-25 浏览5344 评论0

scala

Spark Streaming

梅兰（信达图文广告18246481123）发表于2024-06-25 浏览7634 评论0

scala

Flink sink doris案例（Doris flink）

kph 发表于2024-06-25 浏览9010 评论0

scala

一天学完spark的Scala基础语法教程十三、文件IO操作(idea版本)（spark编程基础scala）

一叶知秋 发表于2024-06-25 浏览10774 评论0

« 2023年9月 »
一	二	三	四	五	六	日
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30