big data 第15页 - 星花园站长资源网

前端 css3 html5 javascript html

To prevent appear like previously, remem...

...

还有 1 人发表了评论加入6076人围观

scala

Kafka生产者是如何发送消息的？（kafka生产者发送数据）

guier 发表于2024-06-10 浏览11071 评论0

（一）生产者的原理当有数据要从生产者发往消费者的时候，在kafka底层有这样一套流程。首先生产者调用send方法发送消息后，会先经过一层拦截器，接着进入序列化器。序列化器主要用于对消息的Key和Value进行序列化。接着进入分区器选择消息的分区。上面这几步完成之后，消息会进入到一个名为RecordAccumulator的缓冲队列，这个队列默认32M。当满足以下两个条件的任意一个之后，消息由sender线程发送。条件一：消息累计达到batch.size，默认是16kb。条件二：等

scala

Spark源码(创建与yarn集群交互的client并运行)-第一期

和煦的糖果风 发表于2024-06-10 浏览3923 评论0

决定从这一期开始写基于yarn模式部署的spark(基于Spark3.0.0)集群，将用户编写的代码(以WordCount为例子)提交到该集群上运行的一系列流程。 object Spark03_WordCount { def main(args: Array[String]): Unit = { val sparConf: SparkConf = new SparkConf().setMaster("local").setAppName("WordCount") val

sql

ClickHouse删除数据之delete问题详解

用户7794851402 发表于2024-06-10 浏览17505 评论0

背景： ClickHouse中一张数据表中一天有7000w数据，采用delete删除命令删除一周数据，SQL已经执行成功，短时间内查询原表数据仍然存在，没有被删除，过了一会之后，在查询数据删除成功。 SQL提交成功：短时间内【40s】查询数据仍然存在经过查阅资料得知，ClickHouse提供了DELETE和UPDATE的能力，这类操作称为Mutation查询，可以看作ALTER语句的变种。虽然Mutation能最终实现修改和删除，但不能完全以通常意义上的UPDATE

scala

Spark入门-UDAF之强类型和弱类型（spark udf 复杂参数）

校长 发表于2024-06-10 浏览4353 评论0

在 Spark 处理数据的过程中，虽然 DataSet 下的算子不多，但已经可以处理大多数的数据需求，但仍有少数需求需要自定义函数。UDF(User Defined Functions) 是普通的不会产生 Shuffle 不会划分新的阶段的用户自定义函数，UDAF(User Defined Aggregator Functions) 则会打乱分区，用户自定义聚合函数。 UDF 因为 UDF 不需要打乱分区，直接对 RDD 每个分区中的数据进行处理并返回当前分区，所以可以直接注册 UDF 函

scala

Spark（五）（spark五大组件及其功能）

任廷华 发表于2024-06-10 浏览3996 评论0

5.2 双Value类型 5.2.1 union 作用：对源 RDD 和参数 RDD 求并集后返回一个新的 RDD #（1）创建第一个 RDD scala> val rdd1 = sc.parallelize(1 to 5) rdd1: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[23] at parallelize at <console>:24 #（2）创建第二个 RDD scala> val

scala

Scala的安装与配置（scala安装及环境配置）

xinyu590 发表于2024-06-10 浏览5098 评论0

Scala安装配置及介绍一、为什么要学Scala 1. Scala介绍 Scala基于JVM，和Java完全兼容，同样具有跨平台、可移植性性好、方便的垃圾回收等特性是一门函数式编程语言 Scala更适合大数据的处理 Scala对集合类型数据处理有非常好的支持 spark的底层用Scala编写 2. Scala特点二、Scala的配置 1. Scala的安装 1.1 第一种安装方法（推荐）进入官网https://www.scala-lang.org/，点

scala

Spark大数据分析实战-公司销售数据分析（spark 企业大数据分析）

nmgtjkjyxgs 发表于2024-06-10 浏览7352 评论0

需求假设某公司为你提供以下数据，改数据包括3个.txt文档数据，分别为日期数据、订单头数据、订单明细数据。让你根据公司所提供的的数据进行如下的需求分析。 1.计算所有订单中每年的销售单数、销售总额。 2.计算所有订单每年最大金额订单的销售额。 3.计算所有订单中每年最畅销的货品。一、数据字段说明 1.1 日期数据字段分别对应：日期、年月、年、月、日、周几、第几周、季度、旬、半月。 1.2 订单头数据字段分别对应：订单号、交易位置、交易日期。 1.3 订

scala

bigdata_Kafka

南通东东办公设备 发表于2024-06-10 浏览5807 评论0

kafka概念介绍：吞吐量：单位时间内处理的数据量。讲求的是单位时间内处理的数据量要大 Zookeeper是什么：概念说明：zk是分布式环境下的第三方协同服务，帮助分布式系统，比如存储、计算、调度等均需要协同服务特点特征：简单、易使用、高效、稳定应用场景：核心是要解决一致性问题分布式环境下的命名一致性问题分布式服务环境下的高可用性问题 HA问题：high available 核心还是一个选举策略问题代码实现

scala

createOrReplaceTempView原理以及效率优化之cache与persist

夏至未至 发表于2024-06-10 浏览7175 评论0

1. 前言在spark程序实际开发过程中遇到需要对文件内容做join操作，使用createOrReplaceTempView 方式将读取的文件创建临时表，然后通过 spark.sql() 方式利用sql语句做join操作，但是数据量稍微大点时候，就会导致join效率很慢。查询资料得知，这里有优化的空间，利用 cache() 或者 persist() 方法。 2. 原理 createOrReplaceTempView是 transformation 算子，而transforma

scala

使用Spark操作Hudi（spark基本操作）

qidouhai 发表于2024-06-10 浏览7324 评论0

开发环境: hadoop 2.7.6 hive 2.3.7 spark 2.4.5 1、pom文件 <repositories> <repository> <id>maven-ali</id> <url>http://maven.aliyun.com/nexus/content/groups/public//</url> <releases>

scala

flink的source（flink的source和sink为什么要检验序列化）

qq_pwd26vsv 发表于2024-06-10 浏览5283 评论0

目录测试用source JDBCsource 读取 Kafka数据常见的Source可以分为大概4类： 1、基于本地集合的 source 2、基于文件的 source 3、基于网络套接字的 source 4、自定义的 source 常见的有 Apache kafka、Amazon Kinesis Streams、RabbitMQ、Twitter Streaming API、Apache NiFi 等，当然你也可以定义自己的 source 首先了解一下常见的测试source

scala

Spark的安装和使用方法（spark的安装和使用方法视频）

无理 发表于2024-06-10 浏览7009 评论0

1. 安装Spark 2. 在Spark shell中运行代码 Spark Shell本身就是一个Driver，Driver包mian()和分布式数据集。启动Spark Shell 命令： ./bin/spark-shell --master <master-url> Spark的运行模式取决于传递给SparkContext的Master URL的值，可以有如下选择： 1. local 使用一个Worker线程来本地化运行Spark，非并行。默认模式

« 2023年9月 »
一	二	三	四	五	六	日
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30

控制面板

您好，欢迎到访网站！
查看权限

网站分类

最近发表

最新留言

文章归档

2022年2月 (2538)

友情链接