数据湖 - 星花园站长资源网

数据湖的提出距今已经有了几年时间了，特别是在当今时代中，基于Hadoop建立的数据湖在大数据处理中占有的位置越来越重要。

揭秘10个大数据神话（揭秘10个大数据神话人物）

站长资讯网友投稿帖 发表于2024-06-30 浏览4966 评论0

为了确保你组织的大数据计划保持正轨，你需要消除以下10种常见的误解,下面，让我们一起来看。

数据集市的挑战：如何才能识别和处理数据安全（数据集市与数据挖掘的关系）

站长资讯网友投稿帖 发表于2024-06-27 浏览6276 评论0

由于企业数据可见性的增强和数据安全团队的要求，数据集市团队面临的挑战是确保某些客户属性被识别和“处理”。要求技术提供商演示对潜在敏感数据的自动识别和操作，以此来解决这个问题。

数据湖：大数据游水的安全方法？

站长资讯网友投稿帖 发表于2024-06-27 浏览6445 评论0

在这篇文章中，专家想澄清数据池是什么，组织是否会考虑使用数据湖，以及他们使用数据湖所面临的挑战，并概述了一些支持数据湖软件工具的发展。

使用Scala/Java对Iceberg数据湖的Hive Catalog/Hadoop Catalog/HDFS Path进行表操作

DomyselfYuzhendong 发表于2024-06-20 浏览8791 评论0

1. Hive Catalog(创建表、加载表、重命名表、删除表) pom.xml添加依赖如下： <dependency> <groupId>org.apache.hadoop</groupId> <artifactId>hadoop-common</artifactId> <version>3.3.1</version

数据湖之Hudi（12）：使用Spark对Hudi中的数据进行增量查询（Incremental query）

目录 0. 相关文章链接 1. 环境准备和数据准备 2. Maven依赖 3. 核心代码 0. 相关文章链接数据湖文章汇总 1. 环境准备和数据准备对Hudi的环境准备和数据准备，可以参考博主的另一篇博文，这里就不多描述了，博文连接：数据湖之Hudi（9）：使用Spark向Hudi中插入数据 2. Maven依赖在另一篇博文中有Maven依赖，但在这里还是补充一下 <repositories> <repository>

大数据

Teradata Loom明显提高数据湖可管理性和安全性

站长资讯网友投稿帖 发表于2024-06-19 浏览4903 评论0

为防止用户无法访问并治理数据湖，全球大数据分析和营销应用服务供应商Teradata天睿公司宣布，推出数据湖管理解决方案Teradata Loom® 2.5。Teradata Loom帮助更多用户更轻松地查找、访问并分析数据湖中的数据，并可帮助客户获得全新商业洞察力，和用户现有分析生态系统高效整合，带来更高的工作效率。

scala

Spark SQL Scala版使用 Delta Lake(04)

L 发表于2024-06-19 浏览35524 评论0

Spark SQL 使用 Delta Lake 读者交流群已经开通了，有需要的可以私信进入读者交流群前面我们介绍过了 Delta Lake可以解决我们数据更新和小文件合并的问题，我们知道数据湖三驾马车的特性如下： Iceberg 的设计初衷更倾向于定义一个标准、开放且通用的数据组织格式，同时屏蔽底层数据存储格式上的差异，向上提供统一的操作 API，使得不同的引擎可以通过其提供的 API 接入； Hudi 的设计初衷更像是为了解决流式数据的快速落地，并能够通过 upsert

scala

Spark SQL Shell 版使用Delta Lake(05)

牙歪歪-行政-余周 发表于2024-06-19 浏览36075 评论0

Spark SQL Shell 版使用Delta Lake 读者交流群已经开通了，有需要的可以私信进入读者交流群前面我们学了项目工程中使用Delta Lake，但是很多时候我们在学习和实验阶段，都喜欢使用Spark shell ，所以这一节我们介绍一下如何在Spark shell 中使用Delta Lake。开始之前，我们还是强调一下版本的问题，虽然我们上次我们说过了半本的问题，但是还是有人来问，下面是版本的兼容性问题。 Delta Lake version

大数据

Gartner预警：千万别把数据湖与数据仓库相提并论（数据仓库数据湖差别）

站长资讯网友投稿帖 发表于2024-06-19 浏览6181 评论0

数据湖常常被厂商说成是应对大数据挑战的一种手段，它其实有助于你搞清楚针对你的数据提出的新问题，但前提是你得有相应技能。换句话说，别头脑发热将数据湖用于数据仓库

架构

湖仓一体电商项目（一）：项目背景和架构介绍

夏至未至 发表于2024-06-19 浏览8814 评论0

文章目录项目背景和架构介绍一、项目背景介绍

开源

Databricks决定开源其Delta Lake数据湖（databricks delta lake）

站长资讯网友投稿帖 发表于2024-06-18 浏览5480 评论0

为了消除 Databricks 竞争对手的疑虑，Databricks 周二表示，它正在开源所有 Delta Lake API，作为 Delta Lake 2.0 版本的一部分。该公司还宣布将把 Delta Lake 的所有增强功能贡献给 Linux 基金会。

一	二	三	四	五	六	日
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30

ZBlogIt

Nice to meet you, too!

Discuz Discuz! X1.5 DIY门户

https://www.pure-eliquids.com https://p...

大数据

怎么确保Hadoop数据湖不变成“数据洪水”（hadoop 数据湖）

站长资讯网友投稿帖 发表于2024-06-30 浏览4884 评论0

大数据

揭秘10个大数据神话（揭秘10个大数据神话人物）

站长资讯网友投稿帖 发表于2024-06-30 浏览4966 评论0

大数据

数据集市的挑战：如何才能识别和处理数据安全（数据集市与数据挖掘的关系）

站长资讯网友投稿帖 发表于2024-06-27 浏览6276 评论0

大数据

数据湖：大数据游水的安全方法？

站长资讯网友投稿帖 发表于2024-06-27 浏览6445 评论0

scala

使用Scala/Java对Iceberg数据湖的Hive Catalog/Hadoop Catalog/HDFS Path进行表操作

DomyselfYuzhendong 发表于2024-06-20 浏览8791 评论0

scala

数据湖之Hudi（12）：使用Spark对Hudi中的数据进行增量查询（Incremental query）

Km千年 发表于2024-06-20 浏览3658 评论0

大数据

Teradata Loom明显提高数据湖可管理性和安全性

站长资讯网友投稿帖 发表于2024-06-19 浏览4903 评论0

scala

Spark SQL Scala版使用 Delta Lake(04)

L 发表于2024-06-19 浏览35524 评论0

scala

Spark SQL Shell 版使用Delta Lake(05)

牙歪歪-行政-余周 发表于2024-06-19 浏览36075 评论0

大数据

Gartner预警：千万别把数据湖与数据仓库相提并论（数据仓库数据湖差别）

站长资讯网友投稿帖 发表于2024-06-19 浏览6181 评论0

架构

湖仓一体电商项目（一）：项目背景和架构介绍

夏至未至 发表于2024-06-19 浏览8814 评论0

开源

Databricks决定开源其Delta Lake数据湖（databricks delta lake）

站长资讯网友投稿帖 发表于2024-06-18 浏览5480 评论0