×

scala

数据湖之Hudi(12):使用Spark对Hudi中的数据进行增量查询(Incremental query)

Km千年 Km千年 发表于2024-06-20 浏览3658 评论0
目录 0. 相关文章链接 1. 环境准备和数据准备 2. Maven依赖 3. 核心代码 0. 相关文章链接 数据湖 文章汇总 1. 环境准备和数据准备 对Hudi的环境准备和数据准备,可以参考博主的另一篇博文,这里就不多描述了,博文连接:数据湖之Hudi(9):使用Spark向Hudi中插入数据 2. Maven依赖 在另一篇博文中有Maven依赖,但在这里还是补充一下 <repositories> <repository>

大数据

Teradata Loom明显提高数据湖可管理性和安全性

站长资讯网友投稿帖 站长资讯网友投稿帖 发表于2024-06-19 浏览4903 评论0
为防止用户无法访问并治理数据湖,全球大数据分析和营销应用服务供应商Teradata天睿公司宣布,推出数据湖管理解决方案Teradata Loom® 2.5。Teradata Loom帮助更多用户更轻松地查找、访问并分析数据湖中的数据,并可帮助客户获得全新商业洞察力,和用户现有分析生态系统高效整合,带来更高的工作效率。

scala

Spark SQL Scala版 使用 Delta Lake(04)

L L 发表于2024-06-19 浏览35524 评论0
Spark SQL 使用 Delta Lake 读者交流群已经开通了,有需要的可以私信进入读者交流群 前面我们介绍过了 Delta Lake可以解决我们数据更新和小文件合并的问题,我们知道数据湖三驾马车的特性如下: Iceberg 的设计初衷更倾向于定义一个标准、开放且通用的数据组织格式,同时屏蔽底层数据存储格式上的差异,向上提供统一的操作 API,使得不同的引擎可以通过其提供的 API 接入; Hudi 的设计初衷更像是为了解决流式数据的快速落地,并能够通过 upsert

scala

Spark SQL Shell 版 使用Delta Lake(05)

牙歪歪-行政-余周 牙歪歪-行政-余周 发表于2024-06-19 浏览36075 评论0
Spark SQL Shell 版 使用Delta Lake 读者交流群已经开通了,有需要的可以私信进入读者交流群 前面我们学了项目工程中使用Delta Lake,但是很多时候我们在学习和实验阶段,都喜欢使用Spark shell ,所以这一节我们介绍一下如何在Spark shell 中使用Delta Lake。 开始之前,我们还是强调一下版本的问题,虽然我们上次我们说过了半本的问题,但是还是有人来问,下面是版本的兼容性问题。 Delta Lake version