scala 自己实现Deltastreamer(使用spark struct streaming),实现多topic的kafka数据写入到Hudi ㅤ 发表于2024-06-26 浏览5197 评论0 1 提交scala程序到Spark 1.1 使用shell spark-shell --packages org.apache.hudi:hudi-spark-bundle_2.11:0.8.0,org.apache.spark:spark-avro_2.11:2.4.4,org.apache.spark:spark-sql-kafka-0-10_2.11:2.4.8,com.googlecode.json-simple:json-simple:1.1,com.alibaba:f
scala Spark Struct Streaming从kafka中提取多主题topic数据并写入到多个Hudi文件 国王 发表于2024-06-21 浏览5137 评论0 这里是用的spark-shell,会自动创建 Spark session available as 'spark',如果是用spark-submit提交程序,则需要自己创建 Spark session。 此文写的比较粗糙,很多地方还需完善,本文后续会不断完善更新。 0 Spark Streaming和Struct Streaming的区别 本小节内容参考博文(upupfeng、编程猎人) Spark Streaming: 1,处理机制:收集了一定时间的数据后生成RDD, 后
后端 Flink SQL通过Hudi HMS Catalog读写Hudi并同步Hive表(强烈推荐这种方式) 0000 发表于2024-06-18 浏览5161 评论0 前言 上篇文章Flink SQL操作Hudi并同步Hive使用总结总结了如何使用Flink SQL读写Hudi并同步Hive,介绍了创建表的各种方式,但是每一种方式都不太完美。本文介绍一种比较完美的方式,通过Hudi HMS Catalog读写Hudi并同步Hive表,这里的Hudi HMS Catalog实际上就是通过上篇文章最后提到的HoodieHiveCatalog实现的,PR:[HUDI-4098]Support HMS for flink HudiCatalog,2022年7月18
后端 Hudi Spark SQL总结 wkpsun 发表于2024-06-16 浏览5260 评论0 前言 总结Hudi Spark SQL的使用,本人仍然以Hudi0.9.0版本为例,也会稍微提及最新版的一些改动。Hudi 从0.9.0版本开始支持Spark SQL,是由阿里的pengzhiwei同学贡献的,pengzhiwei目前已不负责Hudi,改由同事YannByron负责,现在又有ForwardXu贡献了很多功能特性,目前好像主要由ForwardXu负责。 三位都是大佬,都是Apache Hudi Committer,膜拜大佬,向大佬学习!!!大佬的github: 彭志伟(阿里
scala IDEA 中使用 Hudi(idea 中使用new Thread) 白冰寒风 发表于2024-05-31 浏览5943 评论0 环境准备 创建 Maven 项目 创建服务器远程连接 Tools------Delployment-----Browse Remote Host 设置如下内容: 在这里输入服务器的账号和密码 点击Test Connection,提示Successfully的话,就说明配置成功。 复制Hadoop的 core-site.xml、hdfs-site.xml 以及 log4j.properties 三个文件复制到resources文件夹下。 设置 log4j.properties 为打印警告异
后端 Flink SQL操作Hudi并同步Hive使用总结 神经蛙 发表于2024-05-29 浏览5465 评论0 前言 记录总结自己第一次如何使用Flink SQL读写Hudi并同步Hive,以及遇到的问题及解决过程。 关于Flink SQL客户端如何使用可以参考:Flink SQL 客户端查询Hive配置及问题解决 版本 Flink 1.14.3 Hudi 0.12.0/0.12.1 本文采用Flink yarn-session模式,不会的可以参考之前的文章。 Hudi包 下载地址:https://repo1.maven.org/maven2/org/apache/hudi/hudi-
scala Hudi(二)Spark操作Hudi(spark hudi) 成绍勇? 发表于2024-05-26 浏览5545 评论0 1、Spark-shell读写Hudi 1.1、Spark-shell启动 // spark-shell for spark 3 spark-shell \ --packages org.apache.hudi:hudi-spark3-bundle_2.12:0.10.0,org.apache.spark:spark-avro_2.12:3.1.2 \ --conf 'spark.serializer=org.apache.spark.serializer.KryoSerialize