×

scala

大数据之Spark(大数据之下还有隐私吗)

任廷华 任廷华 发表于2024-06-02 浏览5671 评论0
Spark介绍 什么是Spark 专为大规模数据处理而设计的快速通用的计算引擎 类 Hadoop MapReduce 的通用并行计算框架 拥有 Hadoop MapReduce 所具有的优点 但不同于 MapReduce 的是 Job 中间输出结果可以缓存在内存中,从而不再需要读写 HDFS ,减少磁盘数据交互 因此 Spark 能更好地适用于数据挖掘与机器学习等需要迭代的算法 Spark 是 Scala 编写,方便快速编程 Spark与MR的区别 都是分布式计算框架,

scala

Apache Livy 安装部署使用示例

刚需队长? 刚需队长? 发表于2024-06-02 浏览7359 评论0
1. Apache Livy 简介 官网:https://livy.apache.org/ Livy是一个提供rest接口和spark集群交互的服务。它可以提交spark job或者spark一段代码,同步或者异步的返回结果;也提供sparkcontext的管理,通过restfull接口或RPC客户端库。Livy也简化了与spark与应用服务的交互,这允许通过web/mobile与spark的使用交互。其他特点还包含: 长时间运行的SparkContext,允许多个spark

spring boot

SpringBoot+elasticsearchTemplate实现es索引数据的创建查询删除

下午茶 下午茶 发表于2024-06-02 浏览5661 评论0
通过elasticsearch实现创建索引、创建mapping映射、插入数据、模糊查询索引、查询index所对应的mapping、数据的滚动条件查询、删除指定数据 目录 elasticsearchTemplate创建索引、创建mapping映射(默认创建类型为doc) elasticsearchTemplate添加数据 模糊查询index(查询以xxx开头的所有索引)并查询其对应的mapping包含的字段 elasticsearchTemplate滚动条件查询 elasticsear

scala

Spark2.4.8 共享变量之累加器(spark的累加器)

真 发表于2024-06-01 浏览4749 评论0
一、共享变量 通常,当传递给Spark操作(例如map或reduce)的函数在远程集群节点上执行时,它会在函数中使用的所有变量的单独副本上工作。这些变量被复制到每台机器上,远程机器上变量的更新不会传播回驱动程序。支持跨任务的通用、读写共享变量将是低效的。但是,Spark为两种常见的使用模式提供了两种有限的共享变量类型:广播变量和累加器。 spark通过广播变量和累加器实现共享变量。 二、累加器 累加器是只能通过关联和交换操作添加的变量,因此可以有效地并行支

scala

Spark之Spark Streaming

●°彩儿﹏ ●°彩儿﹏ 发表于2024-06-01 浏览5142 评论0
Spark Streaming是什么         Spark Streaming用于流式数据处理 DStream是什么         Spark Streaming使用离散化流作为抽象表示,称作DStream,是随着时间的推移而得到的数据的序列。在DStream内部,每个时间区间收到的数据都作为RDD存在,DStream就是由这些RDD所组成的序列,DStream就是对RDD在实时处理场景中的一种封装。 架构图 DStream的创建          1.通过RDD队列

scala

SparkStreaming

kangs kangs 发表于2024-06-01 浏览6942 评论0
一、SparkStreaming 概述 Spark Streaming 用于流式数据的处理。Spark Streaming 支持的数据输入源很多,例如:Kafka、Flume、Twitter、ZeroMQ 和简单的 TCP 套接字等等。数据输入后可以用 Spark 的高度抽象原语如:map、reduce、join、window 等进行运算。而结果也能保存在很多地方,如 HDFS,数据库等 Spark Streaming 的特点: 易用 容错 易整合到 Spark 体系

scala

使用scala语言编写Spark独立应用程序合并两个文件(spark编程基础scala)

HT。 HT。 发表于2024-06-01 浏览5835 评论0
实验内容: 对于两个输入文件A和B,编写Spark独立程序,对两个文件进行合并,并剔除其中重复的内容,得到一个新文件C。下面是输入文件和输出文件的样例: 输入文件A的样例如下: 20170101 x 20170102 y 20170103 x 20170104 y 20170105 z 20170106 z 输入文件B的样例如下: 20170101 y 20170102 y 20170103 x 20170104 z 20170105 y 根据输入的文件A和B合并得到的输出文件C的样例如下: 2