Hudi - 星花园站长资源网

1 提交scala程序到Spark 1.1 使用shell spark-shell --packages org.apache.hudi:hudi-spark-bundle_2.11:0.8.0,org.apache.spark:spark-avro_2.11:2.4.4,org.apache.spark:spark-sql-kafka-0-10_2.11:2.4.8,com.googlecode.json-simple:json-simple:1.1,com.alibaba:f

scala

Spark Struct Streaming从kafka中提取多主题topic数据并写入到多个Hudi文件

国王 发表于2024-06-21 浏览5137 评论0

这里是用的spark-shell，会自动创建 Spark session available as 'spark',如果是用spark-submit提交程序，则需要自己创建 Spark session。此文写的比较粗糙，很多地方还需完善，本文后续会不断完善更新。 0 Spark Streaming和Struct Streaming的区别本小节内容参考博文（upupfeng、编程猎人） Spark Streaming： 1，处理机制：收集了一定时间的数据后生成RDD, 后

后端

Flink SQL通过Hudi HMS Catalog读写Hudi并同步Hive表（强烈推荐这种方式）

0000 发表于2024-06-18 浏览5161 评论0

前言上篇文章Flink SQL操作Hudi并同步Hive使用总结总结了如何使用Flink SQL读写Hudi并同步Hive，介绍了创建表的各种方式，但是每一种方式都不太完美。本文介绍一种比较完美的方式，通过Hudi HMS Catalog读写Hudi并同步Hive表，这里的Hudi HMS Catalog实际上就是通过上篇文章最后提到的HoodieHiveCatalog实现的，PR：[HUDI-4098]Support HMS for flink HudiCatalog,2022年7月18

后端

Hudi Spark SQL总结

wkpsun 发表于2024-06-16 浏览5260 评论0

前言总结Hudi Spark SQL的使用，本人仍然以Hudi0.9.0版本为例，也会稍微提及最新版的一些改动。Hudi 从0.9.0版本开始支持Spark SQL，是由阿里的pengzhiwei同学贡献的，pengzhiwei目前已不负责Hudi,改由同事YannByron负责，现在又有ForwardXu贡献了很多功能特性，目前好像主要由ForwardXu负责。三位都是大佬，都是Apache Hudi Committer，膜拜大佬，向大佬学习！！！大佬的github: 彭志伟（阿里

scala

IDEA 中使用 Hudi（idea 中使用new Thread）

白冰寒风 发表于2024-05-31 浏览5943 评论0

环境准备创建 Maven 项目创建服务器远程连接 Tools------Delployment-----Browse Remote Host 设置如下内容：在这里输入服务器的账号和密码点击Test Connection，提示Successfully的话，就说明配置成功。复制Hadoop的 core-site.xml、hdfs-site.xml 以及 log4j.properties 三个文件复制到resources文件夹下。设置 log4j.properties 为打印警告异

后端

Flink SQL操作Hudi并同步Hive使用总结

神经蛙 发表于2024-05-29 浏览5465 评论0

前言记录总结自己第一次如何使用Flink SQL读写Hudi并同步Hive，以及遇到的问题及解决过程。关于Flink SQL客户端如何使用可以参考：Flink SQL 客户端查询Hive配置及问题解决版本 Flink 1.14.3 Hudi 0.12.0/0.12.1 本文采用Flink yarn-session模式，不会的可以参考之前的文章。 Hudi包下载地址：https://repo1.maven.org/maven2/org/apache/hudi/hudi-

scala

Hudi（二）Spark操作Hudi（spark hudi）

成绍勇? 发表于2024-05-26 浏览5545 评论0

1、Spark-shell读写Hudi 1.1、Spark-shell启动 // spark-shell for spark 3 spark-shell \ --packages org.apache.hudi:hudi-spark3-bundle_2.12:0.10.0,org.apache.spark:spark-avro_2.12:3.1.2 \ --conf 'spark.serializer=org.apache.spark.serializer.KryoSerialize

ZBlogIt

Nice to meet you, too!

面部识别 人工智能 微软

Fantastic post! I appreciated the detail...

scala

自己实现Deltastreamer(使用spark struct streaming)，实现多topic的kafka数据写入到Hudi

ㅤ 发表于2024-06-26 浏览5197 评论0

scala

Spark Struct Streaming从kafka中提取多主题topic数据并写入到多个Hudi文件

国王 发表于2024-06-21 浏览5137 评论0

后端

Flink SQL通过Hudi HMS Catalog读写Hudi并同步Hive表（强烈推荐这种方式）

0000 发表于2024-06-18 浏览5161 评论0

后端

Hudi Spark SQL总结

wkpsun 发表于2024-06-16 浏览5260 评论0

scala

IDEA 中使用 Hudi（idea 中使用new Thread）

白冰寒风 发表于2024-05-31 浏览5943 评论0

后端

Flink SQL操作Hudi并同步Hive使用总结

神经蛙 发表于2024-05-29 浏览5465 评论0

scala

Hudi（二）Spark操作Hudi（spark hudi）

成绍勇? 发表于2024-05-26 浏览5545 评论0

« 2023年9月 »
一	二	三	四	五	六	日
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30