×

scala

spark期末大作业(spark期末考试题)

。 发表于2024-05-12 浏览5246 评论0
RDD编程初级实践 1、 需求描述 本次实验需要考察pyspark交互式编程、编写独立应用程序实现数据去重和编写独立应用程序实现求平均值问题。Spark版本是Spark2.4.0,Spark 是一种与 Hadoop 相似的开源集群计算环境,但是两者之间还存在一些不同之处,这些有用的不同之处使 Spark 在某些工作负载方面表现得更加优越,换句话说,Spark 启用了内存分布数据集,除了能够提供交互式查询外,它还可以优化迭代工作负载。Spark 是在 Scala 语言中实现的,它将 Scala 用

scala

Spark综合学习笔记(二十九)SparkSQL分布式SQL引擎(spark sql开发)

小海 小海 发表于2024-05-12 浏览5793 评论0
学习致谢 https://www.bilibili.com/video/BV1Xz4y1m7cv?p=66 说明 Hive的SQL交互方式方式1∶交互式命令行(CLI)· bin/hive,编写SQL语句及DDL语句方式2: 启动服务HiveServer2 (Hive ThriftServer2) ·将Hive当做一个服务启动(类似MySQL数据库,启动一个服务),端口为10000 ·交互式命令行,bin/beeline,CDH 版本HIVE建议使用此种方式,CLI方式过时 · 2JD

scala

spark基于dataFrame和sparksql对hdfs文件夹下多个文件进行读、写、join等操作

myus? myus? 发表于2024-05-12 浏览7052 评论0
  本文主要介绍spark读取hdfs文本文件,并利用spark-sql进行join操作,最后将结果写入hdfs文件系统,话不多说,直接上代码。代码是基于在windows上安装的hadoop,提交到yarn上可以不加hdfs文件的根路径。 1,准备数据文件 math.txt sports.txt 2,代码实现 2.1,初始化sparkContext或者sparkSession val conf = new SparkConf().setMaster("l

scala

win10安装spark及其环境配置(windows安装spark环境)

Vincent沈卫庆 Vincent沈卫庆 发表于2024-05-12 浏览4613 评论0
所需安装包 JDK + 环境配置 Hadoop + 环境配置 Spark + 环境配置 Scala + 环境配置 1. JDK jdk官网下载:根据自己电脑环境来选择版本安装,博主自己安装的是jdk13(以前就装好的) 然后在环境变量中添加路径: 新增 变量名:JAVA_HOME 变量值: jdk安装路径 变量名: CLASSPATH 变量值:%JAVA_HOME%\lib Path 中添加:%JAVA_HOME%\bin 2. Had

scala

IDEA上使用Scala编程方法(idea中运行scala程序)

GAME GAME 发表于2024-05-12 浏览10926 评论0
一、获取IDEA 很简单直接在官网上下载:IntelliJ IDEA: The Capable & Ergonomic Java IDE by JetBrains,大家可以下载社区版,学生可以认证获取正版,也可自行破解。 下载完按照步骤一步一步来就可安装成功。 二、获取Scala的JDK 这个也是直接去官网上下载:The Scala Programming Language 选择第二个msi已经编译好的文件,但是不知道为啥我的电脑只能装2.11版本的,大家

django

[Spark、hadoop]spark Streaming的核心DStream(spark core和spark streaming)

丘 发表于2024-05-12 浏览5007 评论0
目录 Spark Streaming的核心是DStream 一、DStream简介 二.DStream编程模型 三.DStream转换操作 Spark Streaming的核心是DStream 一、DStream简介 1.Spark Streaming提供了一个高级抽象的流,即DStream(离散流)。 2.DStream的内部结构是由一系列连续的RDD组成,每个RDD都是一小段由时间分隔开来的数据集。 二.DStream编程模型 三.DStream转换操作

scala

Spark 入门环境部署以及参考知识(配置spark环境)

qq_pwd26vsv qq_pwd26vsv 发表于2024-05-12 浏览5801 评论0
什么是spark? Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。 Spark是基于内存计算的通用大规模数据处理框架。 Spark快的原因: 1.Spark基于内存,尽可能的减少了中间结果写入磁盘和不必要的sort、shuffle(sort:顾名思义就是排序,shuffle:言简意赅就是将数据打散之后再重新聚合的过程,比如groupBy、reduceBykey等) 2.Spark对于反复用到的数据进行了缓存 3.Spark对于DAG进行了高度的优化,具体在于S

scala

三十五、《大数据项目实战之用户行为分析》Spark Streaming按批次累加单词数量

無言以對 無言以對 发表于2024-05-12 浏览3502 评论0
本例使用Spark Streaming实现一个完整的按批次累加的实时单词计数程序。数据源从Netcat服务器中获取(关于Netcat的安装,此处不做讲解),实现步骤如下: 编写应用程序 1. 导入依赖库 在Spark项目“SparkDemo”的pom.xml中导入以下依赖库: <!--Spark核心库--> <dependency>    <groupId>org.apache.spark</groupId>    <artif

架构

SeaTunnel连接器V1到V2的架构演进与探究

longhuahim longhuahim 发表于2024-05-12 浏览4463 评论0
核心概念 整个SeaTunnel设计的核心是利用设计模式中的控制翻转或者叫依赖注入,主要概括为以下两点: 上层不依赖底层,两者都依赖抽象 流程代码与业务逻辑应该分离 对于整个数据处理过程,大致可以分为以下几个流程:输入 -> 转换 -> 输出,对于更复杂的数据处理,实质上也是这几种行为的组合: 内核原理 SeaTunnel将数据处理的各种行为抽象成Plugin,并使用SPI技术进行动态注册,设计思路保证了框架的灵活扩展,在以上理论基础上,数据的转换与处理还需要

scala

Spark:checkpoint介绍

杨勇 杨勇 发表于2024-05-12 浏览5977 评论0
checkpoint,是Spark提供的一个比较高级的功能。 有时候我们的Spark任务,比较复杂,从初始化RDD开始,到最后整个任务完成,有比较多的步骤,比如超过10个transformation算子。而且整个任务运行的时间也特别长,比如通常要运行1~2个小时。 在这种情况下,就比较适合使用checkpoint功能了。 因为对于特别复杂的Spark任务,有很高的风险会出现某个要反复使用的RDD因为节点的故障导致丢失,虽然之前持久化过,但是还是导致数据丢失了。那么也就是说,出现失败的时候,没有