×

scala

Spark Struct Streaming从kafka中提取多主题topic数据并写入到多个Hudi文件

国王 国王 发表于2024-06-21 浏览5137 评论0
这里是用的spark-shell,会自动创建 Spark session available as 'spark',如果是用spark-submit提交程序,则需要自己创建 Spark session。 此文写的比较粗糙,很多地方还需完善,本文后续会不断完善更新。 0 Spark Streaming和Struct Streaming的区别 本小节内容参考博文(upupfeng、编程猎人) Spark Streaming: 1,处理机制:收集了一定时间的数据后生成RDD, 后

后端

Flink SQL通过Hudi HMS Catalog读写Hudi并同步Hive表(强烈推荐这种方式)

0000 0000 发表于2024-06-18 浏览5161 评论0
前言 上篇文章Flink SQL操作Hudi并同步Hive使用总结总结了如何使用Flink SQL读写Hudi并同步Hive,介绍了创建表的各种方式,但是每一种方式都不太完美。本文介绍一种比较完美的方式,通过Hudi HMS Catalog读写Hudi并同步Hive表,这里的Hudi HMS Catalog实际上就是通过上篇文章最后提到的HoodieHiveCatalog实现的,PR:[HUDI-4098]Support HMS for flink HudiCatalog,2022年7月18

后端

Hudi Spark SQL总结

wkpsun wkpsun 发表于2024-06-16 浏览5260 评论0
前言 总结Hudi Spark SQL的使用,本人仍然以Hudi0.9.0版本为例,也会稍微提及最新版的一些改动。Hudi 从0.9.0版本开始支持Spark SQL,是由阿里的pengzhiwei同学贡献的,pengzhiwei目前已不负责Hudi,改由同事YannByron负责,现在又有ForwardXu贡献了很多功能特性,目前好像主要由ForwardXu负责。 三位都是大佬,都是Apache Hudi Committer,膜拜大佬,向大佬学习!!!大佬的github: 彭志伟(阿里

scala

IDEA 中使用 Hudi(idea 中使用new Thread)

白冰寒风 白冰寒风 发表于2024-05-31 浏览5943 评论0
环境准备 创建 Maven 项目 创建服务器远程连接 Tools------Delployment-----Browse Remote Host 设置如下内容: 在这里输入服务器的账号和密码 点击Test Connection,提示Successfully的话,就说明配置成功。 复制Hadoop的 core-site.xml、hdfs-site.xml 以及 log4j.properties 三个文件复制到resources文件夹下。 设置 log4j.properties 为打印警告异

后端

Flink SQL操作Hudi并同步Hive使用总结

神经蛙 神经蛙 发表于2024-05-29 浏览5465 评论0
前言 记录总结自己第一次如何使用Flink SQL读写Hudi并同步Hive,以及遇到的问题及解决过程。 关于Flink SQL客户端如何使用可以参考:Flink SQL 客户端查询Hive配置及问题解决 版本 Flink 1.14.3 Hudi 0.12.0/0.12.1 本文采用Flink yarn-session模式,不会的可以参考之前的文章。 Hudi包 下载地址:https://repo1.maven.org/maven2/org/apache/hudi/hudi-