×

分布式

Ubuntu安装Hbase数据库

夏沫浅笑 夏沫浅笑 发表于2024-06-12 浏览5045 评论0
一、下载解压安装Hbase 自行下载Hbase版本(实验所用为1.1.2) Hbase官网:Index of /dist/hbase 百度云盘 提取码:hoa0 1.解压Hbase,并修改其名称 sudo tar -zxf hbase-1.1.2-bin.tar.gz -C /usr/local cd /usr/local sudo mv hbase-2.2.2/ hbase sudo chown -R hadoop hbase/ 2.配置环境变量 编辑~/.bashrc文件,

scala

Spark Operator 部署及入门示例

小小小 小小小 发表于2024-06-12 浏览5508 评论0
关于存算分离 目前企业级的大数据应用主流还是采用Yarn或者Mesos来进行资源分配和运行调度的,例如我行目前采用Yarn来进行作业调度,并使用HDFS作为大数据的存储平台,这是典型的计算和存储紧耦合的模式,这种方案是通过数据本地化策略来减少数据的网络传输,从而实现良好的计算性能。 随着业务的发展,支持作业运行所需要的计算资源(CPU、内存、网络带宽)的需求量也会不断增长,就可能出现Hadoop集群的计算资源不足的情况,在目前的架构下我们只能通过扩容集群服务器的方式来解决,然而这种方式的步骤

scala

Cloudera系列(4)RDD Overview(CLOUDERA)

何程 何程 发表于2024-06-12 浏览5663 评论0
一、RDD Overview 1、弹性分布式数据集(RDDs) RDDs是Spark核心的一部分 弹性分布式数据集Resilient Distributed Dataset(RDD) 弹性(Resilient):如果内存中的数据丢失,可以重新创建 分布式(Distributed):跨集群处理 数据集(Dataset):初始数据可以来自一个源,比如文件,也可以是以编程方式创建 尽管名称如此,RDDs并不是Spark SQL的数据集对象 RDDs先于Spark SQL和D

scala

flink集群standalone 模式搭建

造梦先生 造梦先生 发表于2024-06-11 浏览6239 评论0
一:准备工作: 1、下载flink Apache Flink: Downloads 建议选择老一两个的版本,对应的版本,我选择的是: 2、scala选择对应的版本,并安装好,这里可以我的博文: spark集群的安装配置_古柯(●—●)的博客-CSDN博客_spark集群安装 3、下载与hadoopde 集成包  这里注意选择自己对应的hadoop版本 并确保hadoop集群可以使用。按爪个Hadoop的博文: hadoop基础hdfs集群的安装配置_古柯(●—●)的

scala

大数据之Scala 函数式编程完整使用(第五章)(scala常用函数)

品胜河南永城门店 品胜河南永城门店 发表于2024-06-11 浏览6856 评论0
一、函数式编程 1)面向对象编程 解决问题,分解对象,行为,属性,然后通过对象的关系以及行为的调用来解决问题。 对象:用户 行为:登录、连接 JDBC、读取数据库 属性:用户名、密码 Scala 语言是一个完全面向对象编程语言。万物皆对象 对象的本质:对数据和行为的一个封装 2)函数式编程 解决问题时,将问题分解成一个一个的步骤,将每个步骤进行封装(函数),通过调用 这些封装好的步骤,解决问题。 例如:请求->用户名、密码->连接 JDBC->

scala

Spark官方文档整理:spark-core(spark 文档)

真 发表于2024-06-11 浏览6418 评论0
Spark 官方文档 1,spark 概述 Apache Spark 是一个快速通用的集群计算系统,它提供了提供了java,scala,python和R的高级API,以及一个支持一般图计算的优化引擎。它同样也一系列丰富的高级工具包括:Spark sql 用于sql和结构化数据处理,MLlib用于机器学习,Graphx用于图数据处理,以及Spark Streaming用于流数据处理。 2,快速入门 本教程对使用spark进行简单介绍。首先我们会通过spark的交互式 shell工具

scala

Spark 之 Spark框架及部署(spark的框架)

myus? myus? 发表于2024-06-10 浏览5529 评论0
前言    本文简单介绍有关Spark的框架、应用Spark实现WordCount案例以及Spark的部署的相关知识。 Spark 知识系列文章    此处罗列了有关Spark相关知识的其他文章,有需要的可以进行点击查阅。    Spark 之Spark三大数据结构    Spark 之 RDD转换算子    Spark 之 RDD行动算子    Spark 之 SparkSQL    Spark 之 SparkStreaming 一、Spar

架构

用图带你了解大数据框架架构之DophinScheduler(什么是大数据框架)

ipacer ipacer 发表于2024-06-10 浏览5458 评论0
一、简介 用途:任务调度 优势:分布式、易扩展、可视化的DAG工作流,开箱即用,国产易用 二、架构 主要角色组成: 【MasterServer】:采用分布式无中心设计理念,MasterServer主要负责 DAG 任务切分、任务提交、任务监控,并同时监听其它MasterServer和WorkerServer的健康状态。 【WorkerServer】:也采用分布式无中心设计理念,WorkerServer主要负责任务的执行和提供日志服务。 【ZooKeeper】:系统中的MasterSer

scala

Scala高级语法入门 (六)Scala中的异常&隐式转换&泛型(scala偏函数详解)

indexie indexie 发表于2024-06-10 浏览4381 评论0
🙆‍♂️🙆‍♂️ 写在前面 ​🏠​ 个人主页:csdn春和 📚 推荐专栏:更多专栏尽在主页!  JavaWeb专栏(从入门到实战超详细!!!)  SSM专栏 (更新中…) ​📖​ 本期文章:Scala高级语法入门 (六)Scala中的异常&隐式转换&泛型 本篇文章作为Scala系列的完结篇,感谢各位码友一直以来的支持与厚爱💜 一、Scala异常 Scala异常语法处理上和Java类似,但是又不尽相同。 1.1、Java中的异常 try

scala

spark(四)-------术语解释、案例、二次排序及案例、分组取topN及案例

saozecom saozecom 发表于2024-06-10 浏览7793 评论0
1.spark-core中的术语 Master:资源管理的主节点 Cluster Manager:在集群上获取资源的外部服务 Worker Node:资源管理的从节点或者说管理本机资源的进程 Application:基于Spark的用户程序,包含了driver程序和运行在集群上的executor程序 Driver Program:用来连接工作进程的程序 Executor:是在一个worker进程所管理的节点上为某Application启动的一个进程。 Task:被送到某个executor上的工作