首页 | big data 第10页 面部识别 人工智能 微软 Fantastic post! I appreciated the detail... ... 还有 2 人发表了评论 加入4642人围观
scala Spark 入门环境部署以及参考知识(配置spark环境) qq_pwd26vsv 发表于2024-06-15 浏览6073 评论0 什么是spark? Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。 Spark是基于内存计算的通用大规模数据处理框架。 Spark快的原因: 1.Spark基于内存,尽可能的减少了中间结果写入磁盘和不必要的sort、shuffle(sort:顾名思义就是排序,shuffle:言简意赅就是将数据打散之后再重新聚合的过程,比如groupBy、reduceBykey等) 2.Spark对于反复用到的数据进行了缓存 3.Spark对于DAG进行了高度的优化,具体在于S
scala SCALA环境搭建(2)_scala源文件编写和运行---大数据之_SCALA工作笔记005(scala项目运行) 过往· 发表于2024-06-15 浏览9219 评论0 然后我们写个例子去看一下,首先看 HelloJava.java写一个 写上代码 去编译用javac 然后java命令执行
scala Spark—Task not serializable报错排查(RDD序列化) 百度用户75525 发表于2024-06-15 浏览6630 评论0 Spark-core—RDD序列化 1、闭包检查 从计算的角度, 算子以外的代码都是在 Driver 端执行, 算子里面的代码都是在 Executor端执行。那么在 scala 的函数式编程中,就会导致算子内经常会用到算子外的数据,这样就形成了闭包的效果。 如果使用的算子外的数据无法序列化,就意味着无法传值给 Executor端执行,就会发生错误,所以需要在执行任务计算前,检测闭包内的对象是否可以进行序列化,这个操作我们称之为闭包检测。 2、序列化方法和属性 从计算的角度
scala Kafka踩坑记----bootstrap-server is not a recognized option如何解决 步虚声 发表于2024-06-15 浏览12622 评论0 问题背景: 最近在做一个数据实时处理的项目,其中用到了Kafka,之前有过了解,但用起来还是不熟悉。 如题这个错误,是在做将网站日志发送到Kafka主题中时,项目使用的是Springboot集成的Kafka,当时关于Springboot中Kafka的部分已经完成,zookeeper和kafka已经正常启动,然后在查看当前Kafka中当前主题时出现错误,具体如下: 是在输入命令bin/kafka-topics.sh --bootstrap-server hadoop102:9092 --list后
scala 四、Flink部署 , job配置与运行(flink定时运行job) 宜商科技胡先生 发表于2024-06-15 浏览5689 评论0 一、standalone 模式 1.1上传依赖包 打开配置文件 解压依赖包 通过文件传输工具上传到 opt目录下 [root@localhost ~]# cd / [root@localhost /]# ls bin boot dev etc home jdk lib lib64 media mnt mydata opt proc root run sbin srv swapfile sys tmp usr vagrant var [ro
scala Spark Transformation 算子总结笔记 HYH 发表于2024-06-15 浏览6124 评论0 简介:由于本篇文章写的内容多,且杂,加上本人在写的过程中还加入了大量解释,为此本篇文章会设置成粉丝可见,请谅解! 本篇文章主要包含了Spark Transformation 算子的value算子( 1、map()映射 2、mapPartitions()以分区为单位执行Map map()和mapPartition()的区别: 3、mapPartitionsWithIndex()带分区号 4、flatMap()扁平化 6、groupBy()分组(包含四种方法取首字母) 7、GroupBy()之
scala 大数据——Flink 时间语义(flink的时间语义) Linus 发表于2024-06-15 浏览14856 评论0 目录 一、时间语义 1.1 三种时间概念 1.1.1 ProcessTime 在代码中的使用 1.1.2 EventTime 在代码中的使用 1.1.3 关于窗口起始时间的计算值 二、对事件的处理 2.1 有序事件 2.2 乱序事件 2.3 指定 Timestamps 与生成 Watermarks 2.4 使用 WatermarkStrategy 工具类指定时间戳和Watermark 2.5 自定义指定 Timestamps 和 Watermarks 2.6 对迟到数
scala 使用spark3操作hudi数据湖初探(spark3.0) 温暖记忆 发表于2024-06-15 浏览5221 评论0 环境: hadoop 3.2.0 spark 3.0.3-bin-hadoop3.2 hudi 0.8.0 本文基于上述组件版本使用spark插入数据到hudi数据湖中。为了确保以下各步骤能够成功完成,请确保hadoop集群正常启动。 确保已经配置环境变量HADOOP_CLASSPATH 对于开源版本hadoop,HADOOP_CLASSPATH配置为: export HADOOP_CLASSPATH=$HADOOP_CLASSPATH:$HADOOP_HOME/sha
scala Table API & SQL——概念和通用 API(1.14.4) 清苹果 发表于2024-06-15 浏览6213 评论0 Table API和SQL接口被整合成一个联合API,其主要概念是围绕Table对象进行输入和输出查询操作。另外,由于其和DataStream API 很容易被整合在一起,所以,在开发过程中是可以随意相互转换操作的。 1. 所需依赖 Table API & SQL接口和DataStream API无缝衔接,他们之间可以很容易的相互转换。使用这些接口构建程序需要如下依赖: <dependency> <groupId>org.apache.flink<
scala flink在centos7单机安装测试 云点 发表于2024-06-15 浏览5833 评论0 系统环境:CentOS7.8 flink版本:下载和Scala版本对应的 flink官方下载地址:https://flink.apache.org/downloads.html 查看jdk [root@localhost bin]# java -version java version "1.8.0_162" Java(TM) SE Runtime Environment (build 1.8.0_162-b12) Java HotSpot(TM) 64-Bit Server VM (b
后端 PySpark | PySpark库 | 本机开发环境搭建 | 分布式代码执行分析(pyspark环境配置) xinyu590 发表于2024-06-14 浏览9476 评论0 传送门: 视频地址:黑马程序员Spark全套视频教程 1.PySpark基础入门(一) 2.PySpark基础入门(二) 3.PySpark核心编程(一) 4.PySpark核心编程(二) 5.PySaprk——SparkSQL学习(一) 6.PySaprk——SparkSQL学习(二) 7.Spark综合案例——零售业务统计分析 8. Spark3新特性及核心概念(背) 一、PySpark库 1.框架与类库 类库:—堆别人写好的代码,你可以导入进行使用。PySpa
scala Scala初级实践——统计手机耗费流量(1) 南阳 发表于2024-06-14 浏览5634 评论0 Scala初级实践——统计手机耗费流量(1) 【实验描述】 本实验主要使用Scala语言来实现对手机流量的计算。在该实验中,共有四个需求: 1)统计每一个手机号耗费的总上行流量、下行流量、总流量 2)将统计结果按照手机归属地不同号段(手机号前3位)输出到不同文件中 3)根据需求1)产生的结果再次对总流量进行排序。 4)按照要求2)每个手机号段输出的文件中按照总流量内部排序。 【实验目的】 掌握Scala编程环境的配置安装,能够掌握Scala基本语法,掌握面向对象的编程思想,