×

scala

Kafka生产者是如何发送消息的?(kafka生产者发送数据)

guier guier 发表于2024-06-10 浏览11071 评论0
(一)生产者的原理 当有数据要从生产者发往消费者的时候,在kafka底层有这样一套流程。首先生产者调用send方法发送消息后,会先经过一层拦截器,接着进入序列化器。序列化器主要用于对消息的Key和Value进行序列化。接着进入分区器选择消息的分区。 上面这几步完成之后,消息会进入到一个名为RecordAccumulator的缓冲队列,这个队列默认32M。当满足以下两个条件的任意一个之后,消息由sender线程发送。 条件一:消息累计达到batch.size,默认是16kb。 条件二:等

sql

ClickHouse删除数据之delete问题详解

用户7794851402 用户7794851402 发表于2024-06-10 浏览17505 评论0
背景: ClickHouse中一张数据表中一天有7000w数据,采用delete删除命令删除一周数据,SQL已经执行成功,短时间内查询原表数据仍然存在,没有被删除,过了一会之后,在查询数据删除成功。 SQL提交成功:  短时间内【40s】查询数据仍然存在   经过查阅资料得知,ClickHouse提供了DELETE和UPDATE的能力,这类操作称为Mutation查询,可以看作ALTER语句的变种。虽然Mutation能最终实现修改和删除,但不能完全以通常意义上的UPDATE

scala

Spark入门-UDAF之强类型和弱类型(spark udf 复杂参数)

校长 校长 发表于2024-06-10 浏览4353 评论0
在 Spark 处理数据的过程中,虽然 DataSet 下的算子不多,但已经可以处理大多数的数据需求,但仍有少数需求需要自定义函数。UDF(User Defined Functions) 是普通的不会产生 Shuffle 不会划分新的阶段的用户自定义函数,UDAF(User Defined Aggregator Functions) 则会打乱分区,用户自定义聚合函数。 UDF 因为 UDF 不需要打乱分区,直接对 RDD 每个分区中的数据进行处理并返回当前分区,所以可以直接注册 UDF 函

scala

Scala的安装与配置(scala安装及环境配置)

xinyu590 xinyu590 发表于2024-06-10 浏览5098 评论0
Scala安装配置及介绍 一、为什么要学Scala 1. Scala介绍 Scala基于JVM,和Java完全兼容,同样具有跨平台、可移植性性好、方便的垃圾回收等特性 是一门函数式编程语言 Scala更适合大数据的处理 Scala对集合类型数据处理有非常好的支持 spark的底层用Scala编写 2. Scala特点 二、Scala的配置 1. Scala的安装 1.1 第一种安装方法(推荐) 进入官网https://www.scala-lang.org/,点

scala

Spark大数据分析实战-公司销售数据分析(spark 企业大数据分析)

nmgtjkjyxgs nmgtjkjyxgs 发表于2024-06-10 浏览7352 评论0
需求 假设某公司为你提供以下数据,改数据包括3个.txt文档数据,分别为日期数据、订单头数据、订单明细数据。让你根据公司所提供的的数据进行如下的需求分析。 1.计算所有订单中每年的销售单数、销售总额。 2.计算所有订单每年最大金额订单的销售额。 3.计算所有订单中每年最畅销的货品。 一、数据字段说明 1.1 日期数据 字段分别对应:日期、年月、年、月、日、周几、第几周、季度、旬、半月。 1.2 订单头数据 字段分别对应:订单号、交易位置、交易日期。 1.3 订

scala

bigdata_Kafka

南通东东办公设备 南通东东办公设备 发表于2024-06-10 浏览5807 评论0
kafka概念介绍: 吞吐量:单位时间内处理的数据量。讲求的是单位时间内处理的数据量要大 Zookeeper是什么: 概念说明:zk是分布式环境下的第三方协同服务,帮助分布式系统,比如存储、计算、调度等均需要协同服务 特点特征:简单、易使用、高效、稳定 应用场景:核心是要解决一致性问题 分布式环境下的命名一致性问题 分布式服务环境下的高可用性问题 HA问题:high available 核心还是一个选举策略问题 代码实现

scala

createOrReplaceTempView原理以及效率优化之cache与persist

夏至未至 夏至未至 发表于2024-06-10 浏览7175 评论0
1. 前言   在spark程序实际开发过程中遇到需要对文件内容做join操作,使用createOrReplaceTempView 方式将读取的文件创建临时表,然后通过 spark.sql() 方式利用sql语句做join操作,但是数据量稍微大点时候,就会导致join效率很慢。查询资料得知,这里有优化的空间,利用 cache() 或者 persist() 方法。 2. 原理   createOrReplaceTempView是 transformation 算子,而transforma

scala

flink的source(flink的source和sink为什么要检验序列化)

qq_pwd26vsv qq_pwd26vsv 发表于2024-06-10 浏览5283 评论0
目录 测试用source JDBCsource 读取 Kafka数据 常见的Source可以分为大概4类: 1、基于本地集合的 source 2、基于文件的 source 3、基于网络套接字的 source 4、自定义的 source 常见的有 Apache kafka、Amazon Kinesis Streams、RabbitMQ、Twitter Streaming API、Apache NiFi 等,当然你也可以定义自己的 source 首先了解一下常见的测试source