×

分布式

大数据技术之——zookeeper的安装部署(zookeeper 部署)

此号已注销 此号已注销 发表于2024-05-27 浏览5170 评论0
🙆‍♂️🙆‍♂️ 写在前面 ​🏠​ 个人主页:csdn春和 📚 推荐专栏:更多专栏尽在主页!  Scala专栏(spark必学语言 已完结)  JavaWeb专栏(从入门到实战超详细!!!)  SSM专栏 (更新中…) ​📖​ 本期文章:大数据技术之——zookeeper的安装部署 如果对您有帮助还请三连支持,定会一 一回访!🙋🏻‍♂️ 大数据技术之—— Zookeeper的安装 一、本地模式安装部署 1.1、安装前准备 1、安装jdk 确保已将

scala

大数据技能竞赛之Spark搭建(五)(spark大数据开发)

。 发表于2024-05-27 浏览5957 评论0
以下操作除特殊说明外都在三个节点上操作。 注意:操作前务必使三台虚拟机可以互相免密通信! 一、安装Scala软件包 使用xftp将软件包上传至三台虚拟机的/usr/package文件夹下 创建工作目录 mkdir -p /usr/scala 解压缩 cd /usr/package tar -zxvf scala-2.12.12.tgz -C /usr/scala 配置环境变量 vi /etc/profile 加入以下内容 保存后退出,使环境变量生效 source /e

scala

大数据技术---Spark(大数据技术spark电子版 林子雨)

????&Y ????&Y 发表于2024-05-27 浏览6123 评论0
一、Spark简介 1、Spark概述 Spark:由美国加州伯克利大学的AMP实验室于2009年开发,基于内存计算的大数据并行计算框架,可用于构建大型的、低延迟的数据分析应用程序。 三大分布式计算系统开源项目:Hadoop、Spark、Storm。 Spark的特点: (1)运行速度块:使用DAG执行引擎以支持循环数据流与内存计算。 (2)容易使用:支持使用scala、Java、python和R语言进行编程,可以通过spark shell进行交互式编程。 (3)通用性:Spark提供了完整

scala

[Spark精进]必须掌握的4个RDD算子之map算子(spark rdd 算子)

刚好 刚好 发表于2024-05-27 浏览4519 评论0
序章 第一个map. 以元素为粒度的数据转换 我们先来说说 map 算子的用法:给定映射函数 f,map(f) 以元素为粒度对 RDD 做数据转换。其中 f 可以是带有明确签名的带名函数,也可以是匿名函数,它的形参类型必须与 RDD 的元素类型保持一致,而输出类型则任由开发者自行决定。 我们使用如下代码,把包含单词的 RDD 转换成元素为(Key,Value)对的 RDD,后者统称为 Paired RDD。 // 把普通RDD转换为Paired RDD val cleanWo

scala

Kafka如何入门?(Kafka入门)

謴 发表于2024-05-27 浏览4294 评论0
1.什么是Kafka?Kafka诞生的背景是什么? Kafka是由Apache软件基金会开发的一个开源流平台,由Scala和Java编写。Kafka的Apache官网是这样介绍Kakfa的。 英文原版 更多请参考:http://kafka.apache.org/documentation/#introduction 我们重点关键三个部分的关键词: Publish and su·bscribe:发布与订阅 Store:存储 Process:处理 我们通常将Apache Kafka用在两类

scala

用scala实现spark读取并处理数据然后提交到mongodb案例,包含远程调试spark总结分享

saozecom saozecom 发表于2024-05-27 浏览7779 评论0
包含spark远程调试总结demo分享 用scala实现spark读取并处理数据然后提交到mongodb案例 linux和windows环境:hadoop-2.7.5、spark2.1.2、jdk1.8、scala2.11、mongodb2.0.3 (linux和windows版本要保持一致如果不不一致,会报ClassNotFound等异常) 该文章将详细叙述单机测试,在spark运行,IDEA-spark调试,三个部分。 1.环境简述 这里我在开了三台虚拟机,hadoop01、0

scala

Spark 笔记(spark笔记)

舜 发表于2024-05-27 浏览6233 评论0
初识 是用于大数据处理的集群计算框架,Spark并没有以 MapReduce 作为执行引擎,而是使用了它自己的分布式运行环境在集群上执行工作。Spark最突出的表现在于它能够将作业与作业之间产生的大规模的工作数据集存储在内存中。即使你不需要在内存中进行缓存,Spark还会因为其出色的 DAG 引擎和用户体验而具有吸引力。与 MapReduce 不同,Spark 的 DAG 引擎可以处理任意操作流水线,并为用户将其转换为单个作业。Spark 还是用于构建分析工具的出色平台。为此,Apache

scala

大数据开发之Scala笔记(scala 大数据)

Peter Peter 发表于2024-05-27 浏览5629 评论0
变量名 var 变量名 [: 变量类型] = 初始值 var i:Int = 10 val 常量名 [: 常量类型] = 初始值 val j:Int = 20 注意:能用常量的地方不用变量  字符串输出 1)基本语法 (1)字符串,通过+号连接 (2)重复字符串拼接 (3)printf用法:字符串,通过%传值。 (4)字符串模板(插值字符串):通过$获取变量值 Java: ==比较两个变量本身的值,即两个对象在内存中的首地址; equals比较字符串中所包含的内容是否

scala

Spark常用算子之转换算子(spark 转换算子)

莫兮`2 莫兮`2 发表于2024-05-27 浏览6217 评论0
Spark常用算子(一)转换算子 spark常用算子包括两大类: 转换算子:由一个RDD变成另一个RDD,是RDD之间的转换,是懒执行的,需要action算子触发执行 行为算子:由一个RDD调用,但最后没有返回新的RDD,而是返回了其他数据类型,行为算子可以触发任务的执行,每个action算子都会触发一个job 1. WordCount package com.xiaoming import org.apache.hadoop.conf.Configuration impor

scala

Spark重要端口号(spark的端口号)

丶 发表于2024-05-27 浏览4694 评论0
对于搞大数据开发的人来说,一些常用的端口号还是必须要记住的,这里列举几个常用的端口号(不限于spark). 50070: HDFS webUI的端口。 18080:spark HistoryServer的webUI的端口。 8080:spark master的webUI端口,同时也是Tomcat的端口。 8081: Flink master的webUI端口,同时也是spark worker的webUI端口。 2181:zookeeper的rpc(Remote Procedure Call)端