×

scala

spark源码-shuffle原理分析-2-ShuffleReader(spark的shuffle原理)

LL LL 发表于2024-05-15 浏览2997 评论0
1.概述 本次分析基于spark版本2.11进行; 在【spark源码-shuffle原理分析-1-ShuffleWriter】中分析了shuffle过程中,stage结果数据落地到磁盘的逻辑;针对stage结果数据是从哪里来的,并没有进行分析;接下来就分析下shuffle过程中,shuffle的数据是从哪里来的; 2.RDD数据缓存级别 默认缓存级别:MEMORY_ONLY Storage Level Remark None 不缓存 MEMORY_ONLY

scala

FlinkCDC-Hudi:Mysql数据实时入湖全攻略二:Hudi与Spark整合时所遇异常与解决方案

faka faka 发表于2024-05-15 浏览7122 评论0
一、背景 根据Hudi官方文档,Hudi与Spark整合时只要在以下命令中选择相应的版本,执行命令即可。spark内置的ivy依赖管理工具会自动下载对应的jar包(需要在外网环境下)。 # Spark SQL for spark 3.1 spark-sql --packages org.apache.hudi:hudi-spark3.1.2-bundle_2.12:0.10.1,org.apache.spark:spark-avro_2.12:3.1.2 \ --conf 'spark