scala 大数据之Scala 模式匹配 完整使用(第八章)(scala的模式匹配) 何程 发表于2024-06-14 浏览5641 评论0 一、模式匹配 一、基本语法 模式匹配语法中,采用 match 关键字声明,每个分支采用 case 关键字进行声明,当需 要匹配时,会从第一个 case 分支开始,如果匹配成功,那么执行对应的逻辑代码,如果匹配不成功,继续执行下一个分支进行判断。如果所有 case 都不匹配,那么会执行 case _分支,类似于 Java 中 default 语句 1、实操 package chapter08 /** * 模式匹配 */ object Test01_PatternMatc
django 面经 - OpenStack(Docker、Django、K8S、SDN)知识点 乄 发表于2024-06-14 浏览4628 评论0 概述 云计算是一种采用按量付费的模式,基于虚拟化技术,将相应计算资源(如网络、存储等)池化后,提供便捷的、高可用的、高扩展性的、按需的服务(如计算、存储、应用程序和其他 IT 资源)。 云计算基本特征: 自主服务:可按需的获取云端的相应资源(主要指公有云); 网路访问:可随时随地使用任何联网终端设备接入云端从而使用相应资源。 资源池化: 快速弹性:可方便、快捷地按需获取和释放计算资源。 按量计费: 常见的部署模式 公有云 私有云 社区云 混合云 三种服务模式 IaaS
scala Flink学习笔记(一)简介(flink基础教程 豆瓣) AsO 发表于2024-06-14 浏览5788 评论0 学习致谢: https://www.bilibili.com/video/BV1Gt4y1z7bR?p=2 框架版本 编程语言 Flink官方提供了Java、Scala、Python语言接口用以开发Flink应用程序,但是Flink的源码是使用Java语言进行开发的,且Flink被阿里收购后,未来的主要编程语言都一直会是Java(因为阿里是Java重度使用者! ),且GitHub上关于Flink的项目,大多数是使用Java语言编写的。所以课程中以Java语言为主进行Flink的
scala 像写SQL一样去处理内存中的数据,SparkSQL入门教程 myus? 发表于2024-06-14 浏览8739 评论0 (一)概述 SparkSQL可以理解为在原生的RDD上做的一层封装,通过SparkSQL可以在scala和java中写SQL语句,并将结果作为Dataset/DataFrame返回。简单来讲,SparkSQL可以让我们像写SQL一样去处理内存中的数据。 Dataset是一个数据的分布式集合,是Spark1.6之后新增的接口,它提供了RDD的优点和SparkSQL优化执行引擎的优点,一个Dataset相当于RDD+Schema的结合。 Dataset的底层封装是RDD,当RDD的泛型是Ro
scala SparkStreaming-相关窗口操作 晚风 发表于2024-06-14 浏览6389 评论0 提前封装好的重复代码 按照我的习惯,先把重复的代码做一个简单的封装,后面直接继承就可,这里的窗口长度为3,滑动频率为1 package com.shujia.test import org.apache.spark.SparkContext import org.apache.spark.sql.SparkSession import org.apache.spark.streaming.{Durations, StreamingContext} import org.apach
scala Flink ProcessWindowFunction 和WindowFunction使用 Hi,Sunny?宇哥 发表于2024-06-14 浏览6955 评论0 错误提示一: overloaded method value aggregate with alternatives: [ACC, V, R](preAggregator: org.apache.flink.api.common.functions.AggregateFunction[org.example.hot.items.UserBehavior,ACC,V], windowFunction: org.apache.flink.streaming.api.scala.function
scala Spark RDD算子详解(spark rdd 算子) 冬时茗 发表于2024-06-14 浏览6520 评论0 RDD方法=>RDD算子(Operator 操作) RDD的方法和Scala集合对象的方法不一样,集合对象的方法都是在同一个节点的内存中完成的。 RDD的方法可以将计算逻辑发送到Executor端(分布式节点)执行。为了区分不同的处理效果,所以将RDD的方法称之为算子。RDD的方法外部的操作都是在Driver端执行的,而方法内部的逻辑代码是在Executor端执行。算子字面看还是以计算为主,RDD不存放数据 转换算子(Transformation):功能的补充和封装,将旧的RD
scala Spark的安装配置(spark-3.1.1-bin-hadoop2.7)(spark一定要装hadoop) HaoHao 发表于2024-06-14 浏览8071 评论0 配之前准备 将scala-2.12.13.tgz和spark-3.1.1-bin-hadoop2.7.tgz安装包上传到xshell 在xshell上解压压缩包 输入解压命令: tar -zxvf scala-2.12.13.tgz tar -zxvf spark-3.1.1-bin-hadoop2.7.tgz 配置 1、配置环境变量 vim .bashrc 在文件末尾添加如下内容: #spark export SPARK_HOME=/home/ZQ/
scala 十分钟带汝入门大数据开发语言Scala(大数据开发 语言) Li 发表于2024-06-14 浏览6834 评论0 大家好,我是百思不得小赵。 创作时间:2022 年 6 月 7 日 博客主页: 🔍点此进入博客主页 —— 新时代的农民工 🙊 —— 换一种思维逻辑去看待这个世界 👀 今天是加入CSDN的第1193天。觉得有帮助麻烦👏点赞、🍀评论、❤️收藏 一、概述 Scala是一门多范式的编程语言,一种类似Java的编程语言 ,设计初衷是实现可伸缩的语言 、并集成面向对象编程和函数式编程的各种特性。目前最主流的大数据开发框架Spark的实现就是通过Scala去实
scala 【Spark】Dataset与DataFrame的使用 bluesuop 发表于2024-06-13 浏览5979 评论0 有类型的转换操作 在一开始我们先创建好SparkSession //创建SparkSession val spark = SparkSession.builder() .master("local[6]") .appName("transformation") .getOrCreate() //隐式转换 import spark.implicits._ 转换操作 flatMap通过 flatMap 可以将一条数据转为一个数组,
scala Spark 调度系统,内部原来是这样搬砖的 Ai潼泺 发表于2024-06-13 浏览5197 评论0 0.前言 大家好,我是小林! 《大数据面试突击系列之 Spark》最近更新有点慢,我最近懒癌太严重了,当热也和近期疫情有关系。 随着疫情逐渐消散,生活也慢慢走向正常,相信你们都已经开工。我始终认为,工作才是我们的常态,所以这个系列,我后续会加快更新频率。 Spark 系列往期文章: 第一篇:RDD 编程模型:延迟计算是怎么回事? 第二篇:Spark 数据依赖图是啥? 第三篇:Spark 进程模型与分布式部署:什么是分布式计算? 第四篇:你管这破玩意儿叫 RDD 的持久化? 今
scala 5.Spark 学习成果转化—机器学习—使用Spark ML的线性回归来预测商品销量 (线性回归问题) 零距离 发表于2024-06-13 浏览9486 评论0 第5例 使用Spark ML的线性回归来预测商品销量 这是一个 线性回归 问题。 有关 Spark ML 的介绍与知识点请参考: Spark ML学习笔记—Spark MLlib 与 Spark ML。 5.1 数据准备 5.1.1 数据集文件准备 (1) 该项目并为使用数据库当做数据源,而是直接将数据文件放在项目目录中, 这是一个结构化的简化数据集。 (2) 本项目使用的数据集 house.csv 将在本博客末尾处给出。 5.1.2 数据集字段解