首页 | big data 第15页 前端 css3 html5 javascript html To prevent appear like previously, remem... ... 还有 1 人发表了评论 加入6076人围观
scala Kafka生产者是如何发送消息的?(kafka生产者发送数据) guier 发表于2024-06-10 浏览11071 评论0 (一)生产者的原理 当有数据要从生产者发往消费者的时候,在kafka底层有这样一套流程。首先生产者调用send方法发送消息后,会先经过一层拦截器,接着进入序列化器。序列化器主要用于对消息的Key和Value进行序列化。接着进入分区器选择消息的分区。 上面这几步完成之后,消息会进入到一个名为RecordAccumulator的缓冲队列,这个队列默认32M。当满足以下两个条件的任意一个之后,消息由sender线程发送。 条件一:消息累计达到batch.size,默认是16kb。 条件二:等
scala Spark源码(创建与yarn集群交互的client并运行)-第一期 和煦的糖果风 发表于2024-06-10 浏览3923 评论0 决定从这一期开始写基于yarn模式部署的spark(基于Spark3.0.0)集群,将用户编写的代码(以WordCount为例子)提交到该集群上运行的一系列流程。 object Spark03_WordCount { def main(args: Array[String]): Unit = { val sparConf: SparkConf = new SparkConf().setMaster("local").setAppName("WordCount") val
sql ClickHouse删除数据之delete问题详解 用户7794851402 发表于2024-06-10 浏览17505 评论0 背景: ClickHouse中一张数据表中一天有7000w数据,采用delete删除命令删除一周数据,SQL已经执行成功,短时间内查询原表数据仍然存在,没有被删除,过了一会之后,在查询数据删除成功。 SQL提交成功: 短时间内【40s】查询数据仍然存在 经过查阅资料得知,ClickHouse提供了DELETE和UPDATE的能力,这类操作称为Mutation查询,可以看作ALTER语句的变种。虽然Mutation能最终实现修改和删除,但不能完全以通常意义上的UPDATE
scala Spark入门-UDAF之强类型和弱类型(spark udf 复杂参数) 校长 发表于2024-06-10 浏览4353 评论0 在 Spark 处理数据的过程中,虽然 DataSet 下的算子不多,但已经可以处理大多数的数据需求,但仍有少数需求需要自定义函数。UDF(User Defined Functions) 是普通的不会产生 Shuffle 不会划分新的阶段的用户自定义函数,UDAF(User Defined Aggregator Functions) 则会打乱分区,用户自定义聚合函数。 UDF 因为 UDF 不需要打乱分区,直接对 RDD 每个分区中的数据进行处理并返回当前分区,所以可以直接注册 UDF 函
scala Spark(五)(spark五大组件及其功能) 任廷华 发表于2024-06-10 浏览3996 评论0 5.2 双Value类型 5.2.1 union 作用:对源 RDD 和参数 RDD 求并集后返回一个新的 RDD #(1)创建第一个 RDD scala> val rdd1 = sc.parallelize(1 to 5) rdd1: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[23] at parallelize at <console>:24 #(2)创建第二个 RDD scala> val
scala Scala的安装与配置(scala安装及环境配置) xinyu590 发表于2024-06-10 浏览5098 评论0 Scala安装配置及介绍 一、为什么要学Scala 1. Scala介绍 Scala基于JVM,和Java完全兼容,同样具有跨平台、可移植性性好、方便的垃圾回收等特性 是一门函数式编程语言 Scala更适合大数据的处理 Scala对集合类型数据处理有非常好的支持 spark的底层用Scala编写 2. Scala特点 二、Scala的配置 1. Scala的安装 1.1 第一种安装方法(推荐) 进入官网https://www.scala-lang.org/,点
scala Spark大数据分析实战-公司销售数据分析(spark 企业大数据分析) nmgtjkjyxgs 发表于2024-06-10 浏览7352 评论0 需求 假设某公司为你提供以下数据,改数据包括3个.txt文档数据,分别为日期数据、订单头数据、订单明细数据。让你根据公司所提供的的数据进行如下的需求分析。 1.计算所有订单中每年的销售单数、销售总额。 2.计算所有订单每年最大金额订单的销售额。 3.计算所有订单中每年最畅销的货品。 一、数据字段说明 1.1 日期数据 字段分别对应:日期、年月、年、月、日、周几、第几周、季度、旬、半月。 1.2 订单头数据 字段分别对应:订单号、交易位置、交易日期。 1.3 订
scala bigdata_Kafka 南通东东办公设备 发表于2024-06-10 浏览5807 评论0 kafka概念介绍: 吞吐量:单位时间内处理的数据量。讲求的是单位时间内处理的数据量要大 Zookeeper是什么: 概念说明:zk是分布式环境下的第三方协同服务,帮助分布式系统,比如存储、计算、调度等均需要协同服务 特点特征:简单、易使用、高效、稳定 应用场景:核心是要解决一致性问题 分布式环境下的命名一致性问题 分布式服务环境下的高可用性问题 HA问题:high available 核心还是一个选举策略问题 代码实现
scala createOrReplaceTempView原理以及效率优化之cache与persist 夏至未至 发表于2024-06-10 浏览7175 评论0 1. 前言 在spark程序实际开发过程中遇到需要对文件内容做join操作,使用createOrReplaceTempView 方式将读取的文件创建临时表,然后通过 spark.sql() 方式利用sql语句做join操作,但是数据量稍微大点时候,就会导致join效率很慢。查询资料得知,这里有优化的空间,利用 cache() 或者 persist() 方法。 2. 原理 createOrReplaceTempView是 transformation 算子,而transforma
scala 使用Spark操作Hudi(spark基本操作) qidouhai 发表于2024-06-10 浏览7324 评论0 开发环境: hadoop 2.7.6 hive 2.3.7 spark 2.4.5 1、pom文件 <repositories> <repository> <id>maven-ali</id> <url>http://maven.aliyun.com/nexus/content/groups/public//</url> <releases>
scala flink的source(flink的source和sink为什么要检验序列化) qq_pwd26vsv 发表于2024-06-10 浏览5283 评论0 目录 测试用source JDBCsource 读取 Kafka数据 常见的Source可以分为大概4类: 1、基于本地集合的 source 2、基于文件的 source 3、基于网络套接字的 source 4、自定义的 source 常见的有 Apache kafka、Amazon Kinesis Streams、RabbitMQ、Twitter Streaming API、Apache NiFi 等,当然你也可以定义自己的 source 首先了解一下常见的测试source
scala Spark的安装和使用方法(spark的安装和使用方法视频) 无理 发表于2024-06-10 浏览7009 评论0 1. 安装Spark 2. 在Spark shell中运行代码 Spark Shell本身就是一个Driver,Driver包mian()和分布式数据集。 启动Spark Shell 命令: ./bin/spark-shell --master <master-url> Spark的运行模式取决于传递给SparkContext的Master URL的值,可以有如下选择: 1. local 使用一个Worker线程来本地化运行Spark,非并行。默认模式