×

scala

大数据Hadoop之——Flink DataStream API 和 DataSet API

luck luck 发表于2024-04-01 浏览6530 评论0
一、DataStream API概述 Flink 中的 DataStream 程序是对数据流(例如过滤、更新状态、定义窗口、聚合)进行转换的常规程序。数据流的起始是从各种源(例如消息队列、套接字流、文件)创建的。结果通过 sink 返回,例如可以将数据写入文件或标准输出(例如命令行终端)。Flink 程序可以在各种上下文中运行,可以独立运行,也可以嵌入到其它程序中。任务执行可以运行在本地 JVM 中,也可以运行在多台机器的集群上。 二、什么是DataStream ?

scala

6.编写Spark独立应用程序(sbt)(华为云学习笔记,Spark编程基础,大数据)

ab11223355 ab11223355 发表于2024-03-31 浏览3950 评论0
编写Spark独立应用程序(sbt) ① 使用Scala语言编写Spark独立应用程序; ② 使用sbt工具对Spark应用程序进行编译打包。实验原理-> sbt SBT是一个现代化的构建工具。虽然它由Scala编写并提供了很多Scala便利,但它是一个通用的构建工具。可以使用sbt工具,对采用Scala语言编写的Spark应用程序进行编译打包。 1. 安装sbt工具 下载安装包请打开浏览器访问如下链接进行下载 拷贝代码 http://file.ictedu.com/fileserve

scala

Ubuntu安装hadoop集群 hive spark scala

蓝色妖姬 蓝色妖姬 发表于2024-03-31 浏览4851 评论0
1.Ubuntu虚拟机搭建 1.1安装配置Oracle VM VirtualBox虚拟机 下载虚拟机exe文件 下载地址:百度网盘连接http://pan.baidu.com/s/1mibrCgw    密码:ymke   安装过程中,若出现多选框,需全选,然后根据提示进行安装,最后Finish安装完成。 设定虚拟机的存储文件夹 如图中箭头所示,依次的顺序为,管理,在弹出的对话框中选择常规,然后选择你要存储的文件夹,即点击其它,按下打开按钮后,可以在默认虚拟电脑位置看到我们选择好的文件夹

scala

第3.8章:StarRocks数据导入--Spark Load

+++? +++? 发表于2024-03-31 浏览5111 评论0
Spark Load是通过外部的Spark资源实现对导入数据的预处理,进而提高StarRocks大数据量的导入性能,同时也可以节省StarRocks集群的计算资源。Spark Load的操作本身不复杂,但涉及的技术栈比较多,架构相对较重,所以主要用于初次迁移、大数据量导入等场景(数据量可到TB级别)。 Spark Load的特点在于其引入了外部Spark集群,让我们可以方便的使用Spark 执行 ETL 完成对导入数据的预处理,包括全局字典构建(BITMAP类型)、分区、排序、聚合等。 St

django

[Spark、hadoop]spark Streaming的核心DStream(spark core和spark streaming)

丘 发表于2024-03-30 浏览4723 评论0
目录 Spark Streaming的核心是DStream 一、DStream简介 二.DStream编程模型 三.DStream转换操作 Spark Streaming的核心是DStream 一、DStream简介 1.Spark Streaming提供了一个高级抽象的流,即DStream(离散流)。 2.DStream的内部结构是由一系列连续的RDD组成,每个RDD都是一小段由时间分隔开来的数据集。 二.DStream编程模型 三.DStream转换操作