big data 第14页 - 星花园站长资源网

一、下载解压安装Hbase 自行下载Hbase版本(实验所用为1.1.2) Hbase官网：Index of /dist/hbase 百度云盘提取码：hoa0 1.解压Hbase，并修改其名称 sudo tar -zxf hbase-1.1.2-bin.tar.gz -C /usr/local cd /usr/local sudo mv hbase-2.2.2/ hbase sudo chown -R hadoop hbase/ 2.配置环境变量编辑~/.bashrc文件，

scala

Spark Operator 部署及入门示例

小小小 发表于2024-06-12 浏览5508 评论0

关于存算分离目前企业级的大数据应用主流还是采用Yarn或者Mesos来进行资源分配和运行调度的，例如我行目前采用Yarn来进行作业调度，并使用HDFS作为大数据的存储平台，这是典型的计算和存储紧耦合的模式，这种方案是通过数据本地化策略来减少数据的网络传输，从而实现良好的计算性能。随着业务的发展，支持作业运行所需要的计算资源（CPU、内存、网络带宽）的需求量也会不断增长，就可能出现Hadoop集群的计算资源不足的情况，在目前的架构下我们只能通过扩容集群服务器的方式来解决，然而这种方式的步骤

scala

数据开发：Spark算子（Spark 算子）

xb0617 发表于2024-06-12 浏览5983 评论0

Action （行动）算子 foreach foreach 对RDD中的每个元素都应用传入的函数进行操作，不返回RDD和Array，而是返回Unit val source:RDD[String] = sc.textFile(".\\datas") val result_string:RDD[String] = source.map(x=>(x)) // 打印RDD中每个元素 result_string.foreach(println) count cou

scala

Cloudera系列（4）RDD Overview（CLOUDERA）

何程 发表于2024-06-12 浏览5663 评论0

一、RDD Overview 1、弹性分布式数据集（RDDs） RDDs是Spark核心的一部分弹性分布式数据集Resilient Distributed Dataset（RDD）弹性（Resilient）：如果内存中的数据丢失，可以重新创建分布式（Distributed）：跨集群处理数据集（Dataset）：初始数据可以来自一个源，比如文件，也可以是以编程方式创建尽管名称如此，RDDs并不是Spark SQL的数据集对象 RDDs先于Spark SQL和D

scala

flink集群standalone 模式搭建

造梦先生 发表于2024-06-11 浏览6239 评论0

一：准备工作： 1、下载flink Apache Flink: Downloads 建议选择老一两个的版本，对应的版本，我选择的是： 2、scala选择对应的版本，并安装好，这里可以我的博文： spark集群的安装配置_古柯(●—●)的博客-CSDN博客_spark集群安装 3、下载与hadoopde 集成包这里注意选择自己对应的hadoop版本并确保hadoop集群可以使用。按爪个Hadoop的博文： hadoop基础hdfs集群的安装配置_古柯(●—●)的

scala

大数据之Scala 函数式编程完整使用(第五章)（scala常用函数）

品胜河南永城门店 发表于2024-06-11 浏览6856 评论0

一、函数式编程 1）面向对象编程解决问题，分解对象，行为，属性，然后通过对象的关系以及行为的调用来解决问题。对象：用户行为：登录、连接 JDBC、读取数据库属性：用户名、密码 Scala 语言是一个完全面向对象编程语言。万物皆对象对象的本质：对数据和行为的一个封装 2）函数式编程解决问题时，将问题分解成一个一个的步骤，将每个步骤进行封装（函数），通过调用这些封装好的步骤，解决问题。例如：请求->用户名、密码->连接 JDBC->

scala

Spark官方文档整理：spark-core（spark 文档）

真 发表于2024-06-11 浏览6418 评论0

Spark 官方文档 1,spark 概述 Apache Spark 是一个快速通用的集群计算系统，它提供了提供了java,scala,python和R的高级API，以及一个支持一般图计算的优化引擎。它同样也一系列丰富的高级工具包括：Spark sql 用于sql和结构化数据处理，MLlib用于机器学习，Graphx用于图数据处理，以及Spark Streaming用于流数据处理。 2，快速入门本教程对使用spark进行简单介绍。首先我们会通过spark的交互式 shell工具

scala

Spark 之 Spark框架及部署（spark的框架）

myus? 发表于2024-06-10 浏览5529 评论0

前言本文简单介绍有关Spark的框架、应用Spark实现WordCount案例以及Spark的部署的相关知识。 Spark 知识系列文章此处罗列了有关Spark相关知识的其他文章，有需要的可以进行点击查阅。 Spark 之Spark三大数据结构 Spark 之 RDD转换算子 Spark 之 RDD行动算子 Spark 之 SparkSQL Spark 之 SparkStreaming 一、Spar

架构

用图带你了解大数据框架架构之DophinScheduler（什么是大数据框架）

ipacer 发表于2024-06-10 浏览5458 评论0

一、简介用途：任务调度优势：分布式、易扩展、可视化的DAG工作流，开箱即用，国产易用二、架构主要角色组成：【MasterServer】：采用分布式无中心设计理念，MasterServer主要负责 DAG 任务切分、任务提交、任务监控，并同时监听其它MasterServer和WorkerServer的健康状态。【WorkerServer】：也采用分布式无中心设计理念，WorkerServer主要负责任务的执行和提供日志服务。【ZooKeeper】：系统中的MasterSer

scala

spark在生产中是否要禁止掉BHJ(BroadcastHashJoin)

南通东东办公设备 发表于2024-06-10 浏览5517 评论0

背景本文基于spark 3.2 driver内存 2G 问题描述在基于复杂的sql运行中，或者说是存在多个join操作的sql中，如果说driver内存不是很大的情况下，我们经常会遇到如下报错： Caused by: org.apache.spark.SparkException: Could not execute broadcast in 800 secs. You can increase the timeout for broadcasts via spark.sql.b

scala

Scala高级语法入门（六）Scala中的异常&隐式转换&泛型（scala偏函数详解）

indexie 发表于2024-06-10 浏览4381 评论0

🙆‍♂️🙆‍♂️ 写在前面 🏠 个人主页：csdn春和 📚 推荐专栏：更多专栏尽在主页！ JavaWeb专栏（从入门到实战超详细！！！） SSM专栏（更新中…） 📖 本期文章：Scala高级语法入门（六）Scala中的异常&隐式转换&泛型本篇文章作为Scala系列的完结篇，感谢各位码友一直以来的支持与厚爱💜 一、Scala异常 Scala异常语法处理上和Java类似，但是又不尽相同。 1.1、Java中的异常 try

scala

spark(四)-------术语解释、案例、二次排序及案例、分组取topN及案例

saozecom 发表于2024-06-10 浏览7793 评论0

1.spark-core中的术语 Master：资源管理的主节点 Cluster Manager:在集群上获取资源的外部服务 Worker Node:资源管理的从节点或者说管理本机资源的进程 Application：基于Spark的用户程序，包含了driver程序和运行在集群上的executor程序 Driver Program：用来连接工作进程的程序 Executor:是在一个worker进程所管理的节点上为某Application启动的一个进程。 Task:被送到某个executor上的工作

ZBlogIt

Nice to meet you, too!

Discuz Discuz! X1.5 DIY门户

https://www.cbdmd.com/cbd-gummies https...

分布式

Ubuntu安装Hbase数据库

夏沫浅笑 发表于2024-06-12 浏览5045 评论0

scala

Spark Operator 部署及入门示例

小小小 发表于2024-06-12 浏览5508 评论0

scala

数据开发：Spark算子（Spark 算子）

xb0617 发表于2024-06-12 浏览5983 评论0

scala

Cloudera系列（4）RDD Overview（CLOUDERA）

何程 发表于2024-06-12 浏览5663 评论0

scala

flink集群standalone 模式搭建

造梦先生 发表于2024-06-11 浏览6239 评论0

scala

大数据之Scala 函数式编程完整使用(第五章)（scala常用函数）

品胜河南永城门店 发表于2024-06-11 浏览6856 评论0

scala

Spark官方文档整理：spark-core（spark 文档）

真 发表于2024-06-11 浏览6418 评论0

scala

Spark 之 Spark框架及部署（spark的框架）

myus? 发表于2024-06-10 浏览5529 评论0

架构

用图带你了解大数据框架架构之DophinScheduler（什么是大数据框架）

ipacer 发表于2024-06-10 浏览5458 评论0

scala

spark在生产中是否要禁止掉BHJ(BroadcastHashJoin)

南通东东办公设备 发表于2024-06-10 浏览5517 评论0

scala

Scala高级语法入门（六）Scala中的异常&隐式转换&泛型（scala偏函数详解）

indexie 发表于2024-06-10 浏览4381 评论0

scala

spark(四)-------术语解释、案例、二次排序及案例、分组取topN及案例

saozecom 发表于2024-06-10 浏览7793 评论0

« 2023年9月 »
一	二	三	四	五	六	日
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30