big data 第10页 - 星花园站长资源网

面部识别 人工智能 微软

Fantastic post! I appreciated the detail...

...

还有 2 人发表了评论加入4642人围观

scala

Spark 入门环境部署以及参考知识（配置spark环境）

qq_pwd26vsv 发表于2024-06-15 浏览6073 评论0

什么是spark？ Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。 Spark是基于内存计算的通用大规模数据处理框架。 Spark快的原因： 1.Spark基于内存，尽可能的减少了中间结果写入磁盘和不必要的sort、shuffle(sort:顾名思义就是排序，shuffle:言简意赅就是将数据打散之后再重新聚合的过程,比如groupBy、reduceBykey等) 2.Spark对于反复用到的数据进行了缓存 3.Spark对于DAG进行了高度的优化，具体在于S

scala

SCALA环境搭建(2)_scala源文件编写和运行---大数据之_SCALA工作笔记005（scala项目运行）

过往· 发表于2024-06-15 浏览9219 评论0

然后我们写个例子去看一下,首先看 HelloJava.java写一个写上代码去编译用javac 然后java命令执行

scala

Spark—Task not serializable报错排查（RDD序列化）

百度用户75525 发表于2024-06-15 浏览6630 评论0

Spark-core—RDD序列化 1、闭包检查从计算的角度, 算子以外的代码都是在 Driver 端执行, 算子里面的代码都是在 Executor端执行。那么在 scala 的函数式编程中，就会导致算子内经常会用到算子外的数据，这样就形成了闭包的效果。如果使用的算子外的数据无法序列化，就意味着无法传值给 Executor端执行，就会发生错误，所以需要在执行任务计算前，检测闭包内的对象是否可以进行序列化，这个操作我们称之为闭包检测。 2、序列化方法和属性从计算的角度

scala

Kafka踩坑记----bootstrap-server is not a recognized option如何解决

步虚声 发表于2024-06-15 浏览12622 评论0

问题背景：最近在做一个数据实时处理的项目，其中用到了Kafka，之前有过了解，但用起来还是不熟悉。如题这个错误，是在做将网站日志发送到Kafka主题中时，项目使用的是Springboot集成的Kafka，当时关于Springboot中Kafka的部分已经完成，zookeeper和kafka已经正常启动，然后在查看当前Kafka中当前主题时出现错误，具体如下：是在输入命令bin/kafka-topics.sh --bootstrap-server hadoop102:9092 --list后

scala

四、Flink部署 , job配置与运行（flink定时运行job）

宜商科技胡先生 发表于2024-06-15 浏览5689 评论0

一、standalone 模式 1.1上传依赖包打开配置文件解压依赖包通过文件传输工具上传到 opt目录下 [root@localhost ~]# cd / [root@localhost /]# ls bin boot dev etc home jdk lib lib64 media mnt mydata opt proc root run sbin srv swapfile sys tmp usr vagrant var [ro

scala

Spark Transformation 算子总结笔记

HYH 发表于2024-06-15 浏览6124 评论0

简介：由于本篇文章写的内容多，且杂，加上本人在写的过程中还加入了大量解释，为此本篇文章会设置成粉丝可见，请谅解！本篇文章主要包含了Spark Transformation 算子的value算子（ 1、map()映射 2、mapPartitions()以分区为单位执行Map map()和mapPartition()的区别： 3、mapPartitionsWithIndex()带分区号 4、flatMap()扁平化 6、groupBy()分组（包含四种方法取首字母） 7、GroupBy()之

scala

大数据——Flink 时间语义（flink的时间语义）

Linus 发表于2024-06-15 浏览14856 评论0

目录一、时间语义 1.1 三种时间概念 1.1.1 ProcessTime 在代码中的使用 1.1.2 EventTime 在代码中的使用 1.1.3 关于窗口起始时间的计算值二、对事件的处理 2.1 有序事件 2.2 乱序事件 2.3 指定 Timestamps 与生成 Watermarks 2.4 使用 WatermarkStrategy 工具类指定时间戳和Watermark 2.5 自定义指定 Timestamps 和 Watermarks 2.6 对迟到数

scala

使用spark3操作hudi数据湖初探（spark3.0）

温暖记忆 发表于2024-06-15 浏览5221 评论0

环境： hadoop 3.2.0 spark 3.0.3-bin-hadoop3.2 hudi 0.8.0 本文基于上述组件版本使用spark插入数据到hudi数据湖中。为了确保以下各步骤能够成功完成，请确保hadoop集群正常启动。确保已经配置环境变量HADOOP_CLASSPATH 对于开源版本hadoop，HADOOP_CLASSPATH配置为： export HADOOP_CLASSPATH=$HADOOP_CLASSPATH:$HADOOP_HOME/sha

scala

Table API & SQL——概念和通用 API(1.14.4)

清苹果 发表于2024-06-15 浏览6213 评论0

Table API和SQL接口被整合成一个联合API，其主要概念是围绕Table对象进行输入和输出查询操作。另外，由于其和DataStream API 很容易被整合在一起，所以，在开发过程中是可以随意相互转换操作的。 1. 所需依赖 Table API & SQL接口和DataStream API无缝衔接，他们之间可以很容易的相互转换。使用这些接口构建程序需要如下依赖： <dependency> <groupId>org.apache.flink<

scala

flink在centos7单机安装测试

云点 发表于2024-06-15 浏览5833 评论0

系统环境：CentOS7.8 flink版本：下载和Scala版本对应的 flink官方下载地址：https://flink.apache.org/downloads.html 查看jdk [root@localhost bin]# java -version java version "1.8.0_162" Java(TM) SE Runtime Environment (build 1.8.0_162-b12) Java HotSpot(TM) 64-Bit Server VM (b

后端

PySpark | PySpark库 | 本机开发环境搭建 | 分布式代码执行分析（pyspark环境配置）

xinyu590 发表于2024-06-14 浏览9476 评论0

传送门：视频地址：黑马程序员Spark全套视频教程 1.PySpark基础入门（一） 2.PySpark基础入门（二） 3.PySpark核心编程（一） 4.PySpark核心编程（二） 5.PySaprk——SparkSQL学习（一） 6.PySaprk——SparkSQL学习（二） 7.Spark综合案例——零售业务统计分析 8. Spark3新特性及核心概念（背）一、PySpark库 1.框架与类库类库：—堆别人写好的代码，你可以导入进行使用。PySpa

scala

Scala初级实践——统计手机耗费流量（1）

南阳 发表于2024-06-14 浏览5634 评论0

Scala初级实践——统计手机耗费流量（1）【实验描述】本实验主要使用Scala语言来实现对手机流量的计算。在该实验中，共有四个需求： 1）统计每一个手机号耗费的总上行流量、下行流量、总流量 2）将统计结果按照手机归属地不同号段(手机号前3位)输出到不同文件中 3）根据需求1）产生的结果再次对总流量进行排序。 4）按照要求2）每个手机号段输出的文件中按照总流量内部排序。【实验目的】掌握Scala编程环境的配置安装，能够掌握Scala基本语法，掌握面向对象的编程思想，

« 2023年9月 »
一	二	三	四	五	六	日
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30

控制面板

您好，欢迎到访网站！
查看权限

网站分类

最近发表

最新留言

文章归档

2022年2月 (2538)

友情链接