×

scala

Spark 入门环境部署以及参考知识(配置spark环境)

qq_pwd26vsv qq_pwd26vsv 发表于2024-06-15 浏览6073 评论0
什么是spark? Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。 Spark是基于内存计算的通用大规模数据处理框架。 Spark快的原因: 1.Spark基于内存,尽可能的减少了中间结果写入磁盘和不必要的sort、shuffle(sort:顾名思义就是排序,shuffle:言简意赅就是将数据打散之后再重新聚合的过程,比如groupBy、reduceBykey等) 2.Spark对于反复用到的数据进行了缓存 3.Spark对于DAG进行了高度的优化,具体在于S

scala

Spark—Task not serializable报错排查(RDD序列化)

百度用户75525 百度用户75525 发表于2024-06-15 浏览6630 评论0
Spark-core—RDD序列化 1、闭包检查 从计算的角度, 算子以外的代码都是在 Driver 端执行, 算子里面的代码都是在 Executor端执行。那么在 scala 的函数式编程中,就会导致算子内经常会用到算子外的数据,这样就形成了闭包的效果。 如果使用的算子外的数据无法序列化,就意味着无法传值给 Executor端执行,就会发生错误,所以需要在执行任务计算前,检测闭包内的对象是否可以进行序列化,这个操作我们称之为闭包检测。 2、序列化方法和属性 从计算的角度

scala

Kafka踩坑记----bootstrap-server is not a recognized option如何解决

步虚声 步虚声 发表于2024-06-15 浏览12622 评论0
问题背景: 最近在做一个数据实时处理的项目,其中用到了Kafka,之前有过了解,但用起来还是不熟悉。 如题这个错误,是在做将网站日志发送到Kafka主题中时,项目使用的是Springboot集成的Kafka,当时关于Springboot中Kafka的部分已经完成,zookeeper和kafka已经正常启动,然后在查看当前Kafka中当前主题时出现错误,具体如下: 是在输入命令bin/kafka-topics.sh --bootstrap-server hadoop102:9092 --list后

scala

Spark Transformation 算子总结笔记

HYH HYH 发表于2024-06-15 浏览6124 评论0
简介:由于本篇文章写的内容多,且杂,加上本人在写的过程中还加入了大量解释,为此本篇文章会设置成粉丝可见,请谅解! 本篇文章主要包含了Spark Transformation 算子的value算子( 1、map()映射 2、mapPartitions()以分区为单位执行Map map()和mapPartition()的区别: 3、mapPartitionsWithIndex()带分区号 4、flatMap()扁平化 6、groupBy()分组(包含四种方法取首字母) 7、GroupBy()之

scala

大数据——Flink 时间语义(flink的时间语义)

Linus Linus 发表于2024-06-15 浏览14856 评论0
目录 一、时间语义 1.1 三种时间概念  1.1.1 ProcessTime 在代码中的使用 1.1.2 EventTime 在代码中的使用 1.1.3 关于窗口起始时间的计算值  二、对事件的处理 2.1 有序事件 2.2 乱序事件 2.3 指定 Timestamps 与生成 Watermarks 2.4 使用 WatermarkStrategy 工具类指定时间戳和Watermark 2.5 自定义指定 Timestamps 和 Watermarks 2.6 对迟到数

scala

Table API & SQL——概念和通用 API(1.14.4)

清苹果 清苹果 发表于2024-06-15 浏览6213 评论0
Table API和SQL接口被整合成一个联合API,其主要概念是围绕Table对象进行输入和输出查询操作。另外,由于其和DataStream API 很容易被整合在一起,所以,在开发过程中是可以随意相互转换操作的。 1. 所需依赖 Table API & SQL接口和DataStream API无缝衔接,他们之间可以很容易的相互转换。使用这些接口构建程序需要如下依赖: <dependency> <groupId>org.apache.flink<

后端

PySpark | PySpark库 | 本机开发环境搭建 | 分布式代码执行分析(pyspark环境配置)

xinyu590 xinyu590 发表于2024-06-14 浏览9476 评论0
传送门: 视频地址:黑马程序员Spark全套视频教程 1.PySpark基础入门(一) 2.PySpark基础入门(二) 3.PySpark核心编程(一) 4.PySpark核心编程(二) 5.PySaprk——SparkSQL学习(一) 6.PySaprk——SparkSQL学习(二) 7.Spark综合案例——零售业务统计分析 8. Spark3新特性及核心概念(背) 一、PySpark库 1.框架与类库 类库:—堆别人写好的代码,你可以导入进行使用。PySpa

scala

Scala初级实践——统计手机耗费流量(1)

南阳 南阳 发表于2024-06-14 浏览5634 评论0
Scala初级实践——统计手机耗费流量(1) 【实验描述】 本实验主要使用Scala语言来实现对手机流量的计算。在该实验中,共有四个需求: 1)统计每一个手机号耗费的总上行流量、下行流量、总流量 2)将统计结果按照手机归属地不同号段(手机号前3位)输出到不同文件中 3)根据需求1)产生的结果再次对总流量进行排序。 4)按照要求2)每个手机号段输出的文件中按照总流量内部排序。 【实验目的】 掌握Scala编程环境的配置安装,能够掌握Scala基本语法,掌握面向对象的编程思想,