Spark 第2页 - 星花园站长资源网

概览 Spark、Flink、Beam Beam编写完适用于Spark、Flink使用 Spark mr问题 mr->spark? 开发不爽 mr两个过程速度不快 m存硬盘r存hdfs 框架多样性批处理流式处理 Spark特征 http://spark.apache.org/ 速度快内存和磁盘都比mr快易用支持多语言命令行直接运行通用性同一个应用程序同时引用库运行可运行在hdfs之上计算 Spark生态系统对比Hadoop生态系

大数据

专访梁宇明：Hulu的Spark On YARN之路

站长资讯网友投稿帖 发表于2024-05-19 浏览3723 评论0

Hulu，因为尚未进入中国，知道它的人远不如知道YouTube和优酷、土豆。而在美国，Hulu已经将Google Video挤出局成为全美排名第10的视频网站。今天，来自Hulu，负责大数据团队基础架构开发的梁宇明老师，将为我们分享Hulu的Spark On YARN之路。

大数据

Apache Spark常见的三大误解（apache spark什么意思）

站长资讯网友投稿帖 发表于2024-05-19 浏览2851 评论0

最近几年关于Apache Spark框架的声音是越来越多，大家通过Google搜索更多关于Spark的信息。然而很多人对Apache Spark的认识存在误解，在这篇文章中，将介绍我们对Apache Spark的几个主要的误解，以便给那些想将Apache Spark应用到其系统中的人作为参考。

人工智能

微软开源用于Spark的深度学习库MMLSpark（spark csdn）

站长资讯网友投稿帖 发表于2024-05-18 浏览5314 评论0

微软开源了MMLSpark，用于Apache Spark的的深度学习库。MMLSpark可以与微软认知工具包和OpenCV完美整合。虽然SparkML可以建立可扩展的机器学习平台，绝大多数开发者的精力都耗在了调用底层API上。MMLSpark旨在简化PySpark中的重复性工作。

大数据

Spark入门：Spark Streaming 概览（spark-streaming）

站长资讯网友投稿帖 发表于2024-05-18 浏览2709 评论0

Spark Streaming是Spark API的一个可横向扩容，高吞吐量，容错的实时数据流处理引擎，Spark能够从Kafka、Flume、Kinesis或者TCP等等输入获取数据，然后能够使用复杂的计算表达式如map,reduce,join和window对数据进行计算。

大数据

别再比较Hadoop和Spark了，那不是规划人员的初衷（spark和hadoop的优缺点）

站长资讯网友投稿帖 发表于2024-05-18 浏览5363 评论0

直接比较Hadoop和Spark有难度，因为它们处理的许多任务都一样，但是在一些方面又并不相互重叠。Hadoop和Spark并不是非此即彼的关系，也不是说一方是另一方的简易替代者。两者彼此兼容，这使得这对组合成为一种功能极其强大的解决方案，适合诸多大数据应用场合。

大数据

Bossies 2016：最佳开源大数据东西

站长资讯网友投稿帖 发表于2024-05-18 浏览4583 评论0

Bossie奖是英文IT网站InfoWorld针对开源软件颁发的年度奖项，根据这些软件对开源界的贡献，以及在业界的影响力评判获奖对象。本次InfoWorld评选出了13款最佳开源大数据工具，Spark、Beam都名列榜单之上。

开源

Bossies 2016：最佳开源大数据东西

站长资讯网友投稿帖 发表于2024-05-18 浏览5893 评论0

Bossie奖是英文IT网站InfoWorld针对开源软件颁发的年度奖项，根据这些软件对开源界的贡献，以及在业界的影响力评判获奖对象。本次InfoWorld评选出了13款最佳开源大数据工具，Spark、Beam都名列榜单之上。

scala

Exception in thread “main“ java.lang.NoSuchMethodError: scala.Predef$.refArrayOps([Ljava/lang/Object

無言以對 发表于2024-05-18 浏览5822 评论0

IDEA中创建Scala项目启动代码时主要报错信息为： Exception in thread "main" java.lang.NoSuchMethodError: scala.Predef$.refArrayOps([Ljava/lang/Object;)Lscala/collection/mutable/ArrayOps; 说明 IDEA当前的程序运行所使用的Scala SDK与代码中使用 Linu（或本地机器）启动Scala SDK的版本不一致导致无法找到对应的方法。查看ide

scala

Spark2——运行架构、核心编程（简述spark的运行架构）

西园 发表于2024-05-17 浏览5832 评论0

Spark运行架构运行框架 Spark 框架的核心是一个计算引擎，整体来说，它采用了标准 master-slave 的结构。如下图所示，它展示了一个 Spark 执行时的基本结构。图形中的 Driver 表示 master，负责管理整个集群中的作业任务调度。图形中的 Executor 则是 slave，负责实际执行任务。核心组件 Driver Spark 驱动器节点，用于执行 Spark 任务中的 main 方法，负责实际代码的执行工作。Driver 在 Spar

大数据

Spark Graphx 实现图中极大团挖掘, 伪并行化算法（spark graphx图算法案例）

站长资讯网友投稿帖 发表于2024-05-17 浏览6023 评论0

对于关联性较强的图,找出来的连通图非常大,这时串行化的极大团算法,仍然会耗时很久,这里利用剪枝的思想减少样本数据量,但是对于大图,优化空间有限。

大数据

Spark On Yarn(HDFS HA)具体装备进程

站长资讯网友投稿帖 发表于2024-05-17 浏览4834 评论0

我们将要介绍Spark On Yarn详细配置过程，包括服务器分布以及Spark的部署全部过程。

ZBlogIt

Nice to meet you, too!

数据仓库

Hello would you mind letting me know whi...

scala

【快速入门大数据】前沿技术拓展Spark,Flink,Beam（大数据技术应用入门）

jsonyy 发表于2024-05-19 浏览8090 评论0

大数据

专访梁宇明：Hulu的Spark On YARN之路

站长资讯网友投稿帖 发表于2024-05-19 浏览3723 评论0

大数据

Apache Spark常见的三大误解（apache spark什么意思）

站长资讯网友投稿帖 发表于2024-05-19 浏览2851 评论0

人工智能

微软开源用于Spark的深度学习库MMLSpark（spark csdn）

站长资讯网友投稿帖 发表于2024-05-18 浏览5314 评论0

大数据

Spark入门：Spark Streaming 概览（spark-streaming）

站长资讯网友投稿帖 发表于2024-05-18 浏览2709 评论0

大数据

别再比较Hadoop和Spark了，那不是规划人员的初衷（spark和hadoop的优缺点）

站长资讯网友投稿帖 发表于2024-05-18 浏览5363 评论0

大数据

Bossies 2016：最佳开源大数据东西

站长资讯网友投稿帖 发表于2024-05-18 浏览4583 评论0

开源

Bossies 2016：最佳开源大数据东西

站长资讯网友投稿帖 发表于2024-05-18 浏览5893 评论0

scala

Exception in thread “main“ java.lang.NoSuchMethodError: scala.Predef$.refArrayOps([Ljava/lang/Object

無言以對 发表于2024-05-18 浏览5822 评论0

scala

Spark2——运行架构、核心编程（简述spark的运行架构）

西园 发表于2024-05-17 浏览5832 评论0

大数据

Spark Graphx 实现图中极大团挖掘, 伪并行化算法（spark graphx图算法案例）

站长资讯网友投稿帖 发表于2024-05-17 浏览6023 评论0

大数据

Spark On Yarn(HDFS HA)具体装备进程

站长资讯网友投稿帖 发表于2024-05-17 浏览4834 评论0

« 2023年9月 »
一	二	三	四	五	六	日
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30