×

scala

【Flink Scala】Process Function API(底层)

冷焰cc 冷焰cc 发表于2024-06-28 浏览4109 评论0
Process Function API(底层) 我们之前学习的转换算子是无法访问事件的时间戳信息和水位线信息的。而这 在一些应用场景下,极为重要。例如MapFunction这样的map转换算子就无法访问 时间戳或者当前事件的事件时间。 基于此,DataStream API提供了一系列的Low-Level转换算子。可以访问时间戳、watermark以及注册定时事件。还可以输出特定的一些事件,例如超时事件等。 Process Function用来构建事件驱动的应用以及实现自定义

scala

Flink(flink原理、实战与性能优化)

zhuan888 zhuan888 发表于2024-06-27 浏览5730 评论0
目录 1.Flink介绍 1)概念说明: 2)特点特征 3)应用场景 4)代码实现 2.Flink架构设计 1)架构设计图 2)分层设计说明 3.运行模式 1)运模模式核心区分点 2)所有模式分类说明 3)集群运行模式 4.运行流程 1)运行时核心角色组成 2)核心组成角色剖析 3)Yarn模式提交任务的工作流程 1.Flink介绍 1)概念说明: 由Apache软件基金会开发的开源流处理框架 其核心是用Java和Scala编写的框架和分布式处

scala

【Flink Scala】window API(flink和scala)

kkk5566 kkk5566 发表于2024-06-27 浏览6557 评论0
window API Window 概述 streaming流式计算是一种被设计用于处理无限数据集的数据处理引擎,而无限 数据集是指一种不断增长的本质上无限的数据集,而window 是一种切割无限数据 为有限块进行处理的手段。 Window是无限数据流处理的核心,Window将一个无限的 stream拆分成有限大 小的”buckets”桶,我们可以在这些桶上做计算操作。 一般真实的流都是无界的,怎样处理无界的数据? 可以把无限的数据流进行切分,得到有限的数据集进行处理

scala

Flink 读写 Ceph S3入门学习总结

时间差O 时间差O 发表于2024-06-26 浏览4852 评论0
前言 首先安装好Ceph,可以参考我前面的文章Ceph分布式集群安装配置 版本 Flink: 1.10.1 hadoop: hdp版本 3.1.1.3.1.0.0-78 jar包 flink-s3-fs-hadoop-1.10.1.jar,从maven仓库下载即可,下载地址:https://mvnrepository.com/artifact/org.apache.flink/flink-s3-fs-hadoop,找到对应的版本下载即可 然后在$FLINK_HOME/plugin

大数据

以Flink为例,消除流处理常见的六大谬见(基于flink的流处理)

站长资讯网友投稿帖 站长资讯网友投稿帖 发表于2024-06-26 浏览4322 评论0
我们在思考流处理问题上花了很多时间,更酷的是,我们也花了很多时间帮助其他人认识流处理,以及如何在他们的组织里应用流处理来解决数据问题。在这篇文章里,我们选出了其中的六个作为例子。因为我们对Apache Flink比较熟悉,所以我们会基于Flink来讲解这些例子。

scala

Flink DataStream 类型系统 TypeInformation

Lemon Lemon 发表于2024-06-25 浏览7690 评论0
Flink DataStream 应用程序所处理的事件以数据对象的形式存在。函数调用时会传入数据对象,同时也可以输出数据对象。因此,Flink 在内部需要能够处理这些对象。当通过网络传输或者读写状态后端、检查点以及保存点时,需要对它们进行序列化和反序列化。为了能够更高效的做到这一点,Flink 需要详细了解应用程序处理的数据类型。Flink 使用类型信息的概念来表示数据类型,并为每种数据类型生成特定的序列化器、反序列化器以及比较器。 此外,Flink 还有一个类型提取系统,可以分析函数的输入和