big data 第25页 - 星花园站长资源网

通过elasticsearch实现创建索引、创建mapping映射、插入数据、模糊查询索引、查询index所对应的mapping、数据的滚动条件查询、删除指定数据目录 elasticsearchTemplate创建索引、创建mapping映射（默认创建类型为doc） elasticsearchTemplate添加数据模糊查询index(查询以xxx开头的所有索引）并查询其对应的mapping包含的字段 elasticsearchTemplate滚动条件查询 elasticsear

scala

【回顾】Spark核心编程 --- 累加器 Accumulator

aniu 发表于2024-06-02 浏览4449 评论0

累加器 Accumulator 1、实现原理累加器用来把 Executor 端变量信息聚合到 Driver 端。在 Driver 程序中定义的变量，在 Executor 端的每个 Task 都会得到这个变量的一份新的副本，每个 task 更新这些副本的值后，传回 Driver 端进行 merge。 2、案例检测 package test03_rdd.accumulator import org.apache.spark.{SparkConf, SparkCon

scala

spark安装配置（spark安装部署）

呃哦 发表于2024-06-01 浏览4632 评论0

一、下载scala 1.下载 2.root命令下输入（或者+sudo） tar -zxvf scala-2.10.7.tgz -C /usr/hadoop/ 3.配置 vim /etc/profile 输入： export SCALA_HOME=/usr/hadoop/scala-2.10.7 export PATH=$PATH:$SCALA_HOME/bin 保存，退出 4.source /etc/profile (root用户或+sudo) 成功截图二、安

scala

Spark2.4.8 共享变量之累加器（spark的累加器）

真 发表于2024-06-01 浏览4749 评论0

一、共享变量通常，当传递给Spark操作(例如map或reduce)的函数在远程集群节点上执行时，它会在函数中使用的所有变量的单独副本上工作。这些变量被复制到每台机器上，远程机器上变量的更新不会传播回驱动程序。支持跨任务的通用、读写共享变量将是低效的。但是，Spark为两种常见的使用模式提供了两种有限的共享变量类型:广播变量和累加器。 spark通过广播变量和累加器实现共享变量。二、累加器累加器是只能通过关联和交换操作添加的变量，因此可以有效地并行支

scala

Spark之Spark Streaming

●°彩儿﹏发表于2024-06-01 浏览5144 评论0

Spark Streaming是什么 Spark Streaming用于流式数据处理 DStream是什么 Spark Streaming使用离散化流作为抽象表示，称作DStream，是随着时间的推移而得到的数据的序列。在DStream内部，每个时间区间收到的数据都作为RDD存在，DStream就是由这些RDD所组成的序列，DStream就是对RDD在实时处理场景中的一种封装。架构图 DStream的创建 1.通过RDD队列

scala

Flink Standalone HA搭建指南

YaoYao 发表于2024-06-01 浏览7052 评论0

基本环境集群主机 IP host147 10.1.0.147 host148 10.1.0.148 host149 10.1.0.149 配置域名映射 vim /etc/hosts 10.1.0.147 host147 10.1.0.148 host148 10.1.0.149 host149 下载Flink安装包，将其放到/data目录下，并解压 mkdir /data && cd /data wget http://192.168.1.

scala

SparkStreaming

kangs 发表于2024-06-01 浏览6943 评论0

一、SparkStreaming 概述 Spark Streaming 用于流式数据的处理。Spark Streaming 支持的数据输入源很多，例如：Kafka、Flume、Twitter、ZeroMQ 和简单的 TCP 套接字等等。数据输入后可以用 Spark 的高度抽象原语如：map、reduce、join、window 等进行运算。而结果也能保存在很多地方，如 HDFS，数据库等 Spark Streaming 的特点：易用容错易整合到 Spark 体系

scala

使用scala语言编写Spark独立应用程序合并两个文件（spark编程基础scala）

HT。发表于2024-06-01 浏览5835 评论0

实验内容：对于两个输入文件A和B，编写Spark独立程序，对两个文件进行合并，并剔除其中重复的内容，得到一个新文件C。下面是输入文件和输出文件的样例：输入文件A的样例如下： 20170101 x 20170102 y 20170103 x 20170104 y 20170105 z 20170106 z 输入文件B的样例如下： 20170101 y 20170102 y 20170103 x 20170104 z 20170105 y 根据输入的文件A和B合并得到的输出文件C的样例如下： 2

scala

RDD编程基本概念及一个综合案例（RDD编程）

Nacl 发表于2024-06-01 浏览7197 评论0

RDD编程基础 RDD的创建从文件系统中加载数据创建RDD （1）从本地文件系统中加载数据 scala> val lines = sc.textFile("file:///usr/local/spark/mycode/rdd/word.txt") lines: org.apache.spark.rdd.RDD[String] = file:///usr/local/spark/mycode/rdd/word.txt MapPartitionsRDD[12] at textFil

scala

scala基础（scala基础语法）

xing138559 发表于2024-06-01 浏览4275 评论0

Scala 第一章章节目标掌握变量,字符串的定义和使用掌握数据类型的划分和数据类型转换的内容掌握键盘录入功能理解Scala中的常量,标识符相关内容 1.输出语句和分句 1.1输出语句方式一：换行输出格式：println(数据) 方式二：不换行输出格式：print(数据) 1.2 分号 Scala语句中，单行代码最后的分号可写可不写.如果是多行代码写在-行, 则中间的分号不能省略,最后-条代码的分号可省略不写. [外链图片转存失败,

scala

大数据Spark部署模式DeployMode（spark 部署模式）

aerof 发表于2024-06-01 浏览3689 评论0

1 两种模式区别 Spark Application提交运行时部署模式Deploy Mode，表示的是Driver Program运行的地方，要么是提交应用的Client：client，要么是集群中从节点（Standalone：Worker，YARN：NodeManager）：cluster。这里我做个简单总结下面的话:client模式就是driver运行在本地一般不用各种问题,cluster模式driver运行在Yarn集群中,性能较好,Cluster和Client模式

tomcat

tomcat端口号被占用（tomcat端口号被占用怎么解决win10）

浩满 发表于2024-06-01 浏览7307 评论0

这里有两种方法，第一个是通过命令窗口终止，第二个是使用任务管理器。 1、端口被占用，可以用cmd（window+R）第一步：输入netstat -ano，找到被占用的端口号也可以输入netstat -aon|findstr "端口号"，来获取例如：netstat -aon|findstr 8080 第二步：tasklist|findstr "查询出的 listening"，也就是刚刚查询出的13812，输入后查到了占用8080端口的程序。第三步：

ZBlogIt

Nice to meet you, too!

欧美风 总结汇报 通用 总结计划 静态 宽屏 黄色 紫色 工作总结计划 简约现代 ppt ppt模板 幻灯片模板 ppt模板免费下载素材

Welcome to the fascinating world of AI g...

spring boot

SpringBoot+elasticsearchTemplate实现es索引数据的创建查询删除

下午茶 发表于2024-06-02 浏览5671 评论0

scala

【回顾】Spark核心编程 --- 累加器 Accumulator

aniu 发表于2024-06-02 浏览4449 评论0

scala

spark安装配置（spark安装部署）

呃哦 发表于2024-06-01 浏览4632 评论0

scala

Spark2.4.8 共享变量之累加器（spark的累加器）

真 发表于2024-06-01 浏览4749 评论0

scala

Spark之Spark Streaming

●°彩儿﹏发表于2024-06-01 浏览5144 评论0

scala

Flink Standalone HA搭建指南

YaoYao 发表于2024-06-01 浏览7052 评论0

scala

SparkStreaming

kangs 发表于2024-06-01 浏览6943 评论0

scala

使用scala语言编写Spark独立应用程序合并两个文件（spark编程基础scala）

HT。发表于2024-06-01 浏览5835 评论0

scala

RDD编程基本概念及一个综合案例（RDD编程）

Nacl 发表于2024-06-01 浏览7197 评论0

scala

scala基础（scala基础语法）

xing138559 发表于2024-06-01 浏览4275 评论0

scala

大数据Spark部署模式DeployMode（spark 部署模式）

aerof 发表于2024-06-01 浏览3689 评论0

tomcat

tomcat端口号被占用（tomcat端口号被占用怎么解决win10）

浩满 发表于2024-06-01 浏览7307 评论0

« 2023年9月 »
一	二	三	四	五	六	日
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30