Spark - 星花园站长资源网

discuz 更换服务器

https://www.cbdmd.com/cbd-gummies https...

...

还有 5 人发表了评论加入4117人围观

scala

spark读取hdfs路径下的数据_项目实战从0到1之Spark（2）Spark读取和存储HDFS上的数据...

hello 发表于2024-05-10 浏览3788 评论0

本篇来介绍一下通过Spark来读取和HDFS上的数据，主要包含四方面的内容：将RDD写入HDFS、读取HDFS上的文件、将HDFS上的文件添加到Driver、判断HDFS上文件路径是否存在。 1、启动Hadoop 首先启动咱们的Hadoop，在hadoop的目录下执行下面的命令：查看是否启动成功： 2、将RDD写入HDFS 先创建一个SparkSession：将RDD写入HDFS使用的函数是saveAsTextFile：接下来，我们查看一下是否保存成功：可以看

大数据

Apache Spark的Lambda架构示例使用（spark lambda如何使用）

站长资讯网友投稿帖 发表于2024-05-10 浏览7166 评论0

目前，市场上很多玩家都已经成功构建了MapReduce工作流程，每天可以处理TB级的历史数据，但是在MapReduce上跑数据分析真的太慢了。所以我们给大家介绍利用批处理和流处理方法的Lambda架构，本文中将利用Apache Spark(Core，SQL，Streaming)，Apache Parquet，Twitter Stream等实时流数据快速访问历史数据。

大数据

Spark：一个高效的分布式核算体系（spark分布式计算框架）

站长资讯网友投稿帖 发表于2024-05-09 浏览4307 评论0

Spark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行计算框架，Spark基于map reduce算法实现的分布式计算，拥有Hadoop MapReduce所具有的优点；但不同于MapReduce的是Job中间输出和结果可以保存在内存中，从而不再需要读写HDFS，因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的map reduce的算法。

scala

Spark常用特殊符号详解（spark常用特殊符号详解大全）

花若飞絮花曾落 发表于2024-05-01 浏览5034 评论0

=>（匿名函数）在Spark中函数也是一个对象可以赋值给一个变量。 Spark的匿名函数定义格式： (形参列表) => {函数体} 所以，=>的作用就是创建一个匿名函数实例。比如：(x:Int) => x +1 ，就等同于下面的Java方法： public int function(int x) { return x+1; } 示例： class Symbol { var add = (x: Int) => x + 1 } obj

scala

基于 Watermark 处理延迟数据（watermark机制）

我 发表于2024-05-01 浏览4592 评论0

在数据分析系统中, Structured Streaming 可以持续的按照 event-time 聚合数据, 然而在此过程中并不能保证数据按照时间的先后依次到达. 例如: 当前接收的某一条数据的 event-time 可能远远早于之前已经处理过的 event-time. 在发生这种情况时, 往往需要结合业务需求对延迟数据进行过滤. 现在考虑如果事件延迟到达会有哪些影响. 假如, 一个单词在 12:04(event-time) 产生, 在 12:11 到达应用. 应用应该使用 12:04 来在

scala

Spark Core - RDD_Transfom_转换算子

Zni 发表于2024-05-01 浏览4784 评论0

RDD的算子:转换算子和行动算子 1.单value map,mapPar,mapParIndex,flatMap,glom,groupBy,filter,sample,distinct,coalesce,reparation,sortBy 1.map object Spark01_RDD_Operation_Transform { def main(args: Array[String]): Unit = { val sparkConf = new SparkConf()

scala

Spark工作原理及基础概念（超详细！）（简述spark工作原理）

sufz 发表于2024-05-01 浏览24631 评论0

一、Spark概述（1）概述 Spark，是一种"One Stack to rule them all"的大数据计算框架，期望使用一个技术堆栈就完美地解决大数据领域的各种计算任务。Apache官方，对Spark的定义就是：通用的大数据快速处理引擎。 Spark使用Spark RDD、Spark SQL、 Spark Streaming，MLlib，GraphX成功解决了大数据领城中，离线批处理、交互式查询、实时流计算、机器学习与图计算等最重要的任务和问题。 Spark除了一站式

大数据

Apache Spark是大数据范畴的下一个大家伙吗？（apache spark 是什么）

站长资讯网友投稿帖 发表于2024-05-01 浏览5775 评论0

Spark是一个基于内存in-memory数据处理平台，兼容于Hadoop 数据源但是比Hadoop MapReduce运行得快得多。.特别适合于机器学习处理。

大数据

要害七步，用Apache Spark构建实时剖析Dashboard（apache spark介绍）

站长资讯网友投稿帖 发表于2024-05-01 浏览4377 评论0

本文我们将学习如何使用Apache Spark streaming，Kafka，Node.js，Socket.IO和Highcharts构建实时分析Dashboard。

编程开发

Spark入门实战系列中文WORD版 22.5MB（spark中文文档）

星花园站长资源网 发表于2024-05-01 浏览4031 评论0

Spark入门实战系列中文WORD版 22.5MB,本文档是Spark入门实战系列；这个系列基本上围绕了Spark生态圈进行介绍，从Spark的简介、编译、部署，再到编程模型、运行架构，最后介绍其组件SparkSQL、Spark Streaming、Spark MLib和Spark GraphX等。感兴趣的朋友可以过来看看

大数据

Twitter将选用Spark剖析大数据（spark大数据分析实战豆瓣）

站长资讯网友投稿帖 发表于2024-04-30 浏览4178 评论0

Twitter数据科学家Edwin Chen最近在接受媒体采访的时候透露，Twitter内部希望尝试一种全新的大数据系统——Spark。

Spark SQL数据加载和保存实例讲解（sparksql 存储过程）

MSSQL教程

Spark SQL数据加载和保存实例讲解（sparksql 存储过程）

星花园站长资源网 发表于2024-04-28 浏览4321 评论0

这篇文章主要以实例讲解的方式为大家详细介绍了Spark SQL数据加载和保存的相关资料,具有一定的参考价值，感兴趣的小伙伴们可以参考一下

« 2023年9月 »
一	二	三	四	五	六	日
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30

控制面板

您好，欢迎到访网站！
查看权限

网站分类

最近发表

最新留言

文章归档

2022年2月 (2538)

友情链接