首页 | 数据湖 Discuz Discuz! X1.5 DIY门户 https://www.pure-eliquids.com https://p... ... 还有 5 人发表了评论 加入5521人围观
大数据 怎么确保Hadoop数据湖不变成“数据洪水”(hadoop 数据湖) 站长资讯网友投稿帖 发表于2024-06-30 浏览4884 评论0 数据湖的提出距今已经有了几年时间了,特别是在当今时代中,基于Hadoop建立的数据湖在大数据处理中占有的位置越来越重要。
大数据 揭秘10个大数据神话(揭秘10个大数据神话人物) 站长资讯网友投稿帖 发表于2024-06-30 浏览4966 评论0 为了确保你组织的大数据计划保持正轨,你需要消除以下10种常见的误解,下面,让我们一起来看。
大数据 数据集市的挑战:如何才能识别和处理数据安全(数据集市与数据挖掘的关系) 站长资讯网友投稿帖 发表于2024-06-27 浏览6276 评论0 由于企业数据可见性的增强和数据安全团队的要求,数据集市团队面临的挑战是确保某些客户属性被识别和“处理”。要求技术提供商演示对潜在敏感数据的自动识别和操作,以此来解决这个问题。
大数据 数据湖:大数据游水的安全方法? 站长资讯网友投稿帖 发表于2024-06-27 浏览6445 评论0 在这篇文章中,专家想澄清数据池是什么,组织是否会考虑使用数据湖,以及他们使用数据湖所面临的挑战,并概述了一些支持数据湖软件工具的发展。
scala 使用Scala/Java对Iceberg数据湖的Hive Catalog/Hadoop Catalog/HDFS Path进行表操作 DomyselfYuzhendong 发表于2024-06-20 浏览8791 评论0 1. Hive Catalog(创建表、加载表、重命名表、删除表) pom.xml添加依赖如下: <dependency> <groupId>org.apache.hadoop</groupId> <artifactId>hadoop-common</artifactId> <version>3.3.1</version
scala 数据湖之Hudi(12):使用Spark对Hudi中的数据进行增量查询(Incremental query) Km千年 发表于2024-06-20 浏览3658 评论0 目录 0. 相关文章链接 1. 环境准备和数据准备 2. Maven依赖 3. 核心代码 0. 相关文章链接 数据湖 文章汇总 1. 环境准备和数据准备 对Hudi的环境准备和数据准备,可以参考博主的另一篇博文,这里就不多描述了,博文连接:数据湖之Hudi(9):使用Spark向Hudi中插入数据 2. Maven依赖 在另一篇博文中有Maven依赖,但在这里还是补充一下 <repositories> <repository>
大数据 Teradata Loom明显提高数据湖可管理性和安全性 站长资讯网友投稿帖 发表于2024-06-19 浏览4903 评论0 为防止用户无法访问并治理数据湖,全球大数据分析和营销应用服务供应商Teradata天睿公司宣布,推出数据湖管理解决方案Teradata Loom® 2.5。Teradata Loom帮助更多用户更轻松地查找、访问并分析数据湖中的数据,并可帮助客户获得全新商业洞察力,和用户现有分析生态系统高效整合,带来更高的工作效率。
scala Spark SQL Scala版 使用 Delta Lake(04) L 发表于2024-06-19 浏览35524 评论0 Spark SQL 使用 Delta Lake 读者交流群已经开通了,有需要的可以私信进入读者交流群 前面我们介绍过了 Delta Lake可以解决我们数据更新和小文件合并的问题,我们知道数据湖三驾马车的特性如下: Iceberg 的设计初衷更倾向于定义一个标准、开放且通用的数据组织格式,同时屏蔽底层数据存储格式上的差异,向上提供统一的操作 API,使得不同的引擎可以通过其提供的 API 接入; Hudi 的设计初衷更像是为了解决流式数据的快速落地,并能够通过 upsert
scala Spark SQL Shell 版 使用Delta Lake(05) 牙歪歪-行政-余周 发表于2024-06-19 浏览36075 评论0 Spark SQL Shell 版 使用Delta Lake 读者交流群已经开通了,有需要的可以私信进入读者交流群 前面我们学了项目工程中使用Delta Lake,但是很多时候我们在学习和实验阶段,都喜欢使用Spark shell ,所以这一节我们介绍一下如何在Spark shell 中使用Delta Lake。 开始之前,我们还是强调一下版本的问题,虽然我们上次我们说过了半本的问题,但是还是有人来问,下面是版本的兼容性问题。 Delta Lake version
大数据 Gartner预警:千万别把数据湖与数据仓库相提并论(数据仓库 数据湖 差别) 站长资讯网友投稿帖 发表于2024-06-19 浏览6181 评论0 数据湖常常被厂商说成是应对大数据挑战的一种手段,它其实有助于你搞清楚针对你的数据提出的新问题,但前提是你得有相应技能。换句话说,别头脑发热将数据湖用于数据仓库
开源 Databricks决定开源其Delta Lake数据湖(databricks delta lake) 站长资讯网友投稿帖 发表于2024-06-18 浏览5480 评论0 为了消除 Databricks 竞争对手的疑虑,Databricks 周二表示,它正在开源所有 Delta Lake API,作为 Delta Lake 2.0 版本的一部分。该公司还宣布将把 Delta Lake 的所有增强功能贡献给 Linux 基金会。