big data - 星花园站长资源网

数据倾斜的问题优先从数据源解决，以下方法是辅助缓解：（1）spark-sql任务，可以尝试distribute by () 某个字段或者可以确定唯一维度值（某几个联合字段）（2）参考文档调优 https://blog.csdn.net/lsshlsw/article/details/52025949 （3）数据倾斜的定位方法：选取key，对数据进行抽样，统计出现的次数，根据出现次数大小排序取出前几个 spark-shell获取数据不均衡的数据 scala>val c

mysql

MySQL分区表详解（MySQL 分区表）

A-婷婷 发表于2024-05-11 浏览13445 评论0

通常情况下，同一张表的数据在物理层面都是存放在一起的。随着业务增长，当同一张表的数据量过大时，会带来管理上的不便。而分区特性可以将一张表从物理层面根据一定的规则将数据划分为多个分区，多个分区可以单独管理，甚至存放在不同的磁盘/文件系统上，提升效率。分区表的优点：数据可以跨磁盘/文件系统存储，适合存储大量数据。数据的管理非常方便，以分区为单位操作数据，不会影响其他分区的正常运行。数据查询上在某些条件可以利用分区裁剪(partition pruning)特性，将搜索范围快速定位到特性分

分布式

hbase踩坑记---HMaster启动后不久就消失（hbase-2.2.4版本）

枫叶?飘飘 发表于2024-05-11 浏览7285 评论0

版本介绍： hadoop-3.1.3 hbase-2.2.4 问题简述：在学习HBase的过程中，安装后启动，开始是可以看见HMaster进程的，但是几秒后就消失了，反复尝试了几次，都是同样的情况，也就是启动失败。问题分析：因为HBase与hadoop的兼容性是一个重要的问题，因此我先考虑版本问题，查阅hbase官网,如下图：版本兼容是没有问题的，不过这个问题仍然是是使用hbase需要重点关注的。然后，在查看自己安装流程的过程中，我发现在hbase-site.xml配置中： &

scala

1 flink基础（flink基本概念）

浩满 发表于2024-05-11 浏览6914 评论0

flink基础一、flink简介 1.flink是什么 2.为什么要用flink 3.流处理的发展和演变第一代第二代第三代 4.flink特点二、flink快速上手 1.pom文件依赖于插件 <dependencies> <dependency> <groupId>org.apache.flink</groupId>

scala

Spark RDD内存数据集分配用源码让你更快理解原理（spark rdd数据结构）

ㅤ 发表于2024-05-11 浏览4613 评论0

1.先码一个demo object RDD_Memory_Par { def main(args: Array[String]): Unit = { // TODO 准备环境 val sparkConf = new SparkConf() .setMaster("local[*]") .setAppName("RDD_Memory_Par")

scala

Flink大数据实时标签实时ETL --03加载规则类 (source Mysql)

Ai潼泺 发表于2024-05-11 浏览5337 评论0

1、项目架构写到这里我将不进行项目介绍了。只要明白架构以及现在该文章主要进行的是什么操作就可以了。 2、加载mysql规则 package com.func import java.sql.{Connection, DriverManager, PreparedStatement} import com.conf.BaseConf import com.utils.StringUtils import org.apache.flink.configuration.Configu

mysql

MySQL数据库实验二：数据查询（mysql数据库实验3查询）

杨勇 发表于2024-05-11 浏览7869 评论0

数据库结构 1，查询各个地区的编号和名称。 SELECT regionkey,name FROM region; 2、查询各个供应商的编号、名称、地址、电话和供应商所在国家名称。 SELECT su.suppkey,su.name,su.address,su.phone,na.name FROM supplier su,nation na WHERE su.nationkey=na.nationkey; wait 几分钟原数据CSV数据表格如下：除去表头

scala

Spark源码阅读03-Spark存储原理之共享变量（spark共享变量的两种方式）

Calm 发表于2024-05-10 浏览5171 评论0

共享变量通常情况下，当一个函数传递给远程集群节点上运行的Spark操作时（如Map、Reduce)，该函数中所有的变量都会在各节点中创建副本，在各节点中的变量相互隔离并由所在节点的函数进行调用，并且这些变量的更新都不会传递回Driver程序。在任务间进行通用、可读写的共亨变量是低效的，然而Spark还是提供了两种类型的共享变昼：广播变量和累加器广播变量广播变量允许开发人员在每个节点缓存只读的变量，而不足在任务之间传递这些变量。例如，使用广播变量能够高效地在集群每

scala

【flink集群+高可用搭建】（flink集群部署）

网站开发 发表于2024-05-10 浏览3807 评论0

flink 1.集群搭建上传flink压缩包到指定目录解压 tar -zxvf flink-1.10.1-bin-scala_2.12.tgz 重命名 mv flink-1.10.1 flink 配置环境变量： export FLINK_HOME=/usr/local/software/flink export PATH=$FLINK_HOME/bin:$PATH #export HADOOP_CONF_DIR=/usr/local/software/hadoop

scala

大数据之Scala 面向对象完整使用(第六章)（scala具备面向对象和面向函数）

blmblm 发表于2024-05-10 浏览4929 评论0

一、面向对象 1、Scala 包 1）基本语法 package 包名 2）Scala 包的三大作用（和 Java 一样）（1）区分相同名字的类（2）当类很多时，可以很好的管理类（3）控制访问范围 3）包的命名 1）命名规则只能包含数字、字母、下划线、小圆点.，但不能用数字开头，也不要使用关键字。 2）案例实操 demo.class.exec1 //错误，因为 class 关键字 demo.12a //错误，数字开头 3）命名规范一般是小写字母

MSSQL教程

数据库同步有哪些方式？【怎么保障目标和源数据一致性】

搬砖的菜鸟 发表于2024-05-10 浏览18812 评论0

摘要数据库同步有3大难题： 1是如何保障目标和源数据一致性； 2是异构数据库如何做数据类型转换，导致数据同步失败的原因常常是因为数据类型不一样； 3是在数据越实时越有价值的背景下，同步过程中能否做到实时同步。一、几种主流的数据库同步方式方式一：基于无侵入的日志模式(如Oracle redo、Mysql binlog）基于日志的采集方式无需在源库端部署任务代理程序(Agent)及建任何表，对源数据库无侵入和影响压力；方式二：基于时间戳同步过程通过特定属性（如时间戳、

scala

flink集群standalone 模式搭建

造梦先生 发表于2024-05-10 浏览6014 评论0

一：准备工作： 1、下载flink Apache Flink: Downloads 建议选择老一两个的版本，对应的版本，我选择的是： 2、scala选择对应的版本，并安装好，这里可以我的博文： spark集群的安装配置_古柯(●—●)的博客-CSDN博客_spark集群安装 3、下载与hadoopde 集成包这里注意选择自己对应的hadoop版本并确保hadoop集群可以使用。按爪个Hadoop的博文： hadoop基础hdfs集群的安装配置_古柯(●—●)的

ZBlogIt

Nice to meet you, too!

数据仓库

Онлайн-казино Ramen Bet Casino - это мес...

scala

Spark 数据倾斜处理（spark 解决数据倾斜）

发表于2024-05-11 浏览6909 评论0

mysql

MySQL分区表详解（MySQL 分区表）

A-婷婷 发表于2024-05-11 浏览13445 评论0

分布式

hbase踩坑记---HMaster启动后不久就消失（hbase-2.2.4版本）

枫叶?飘飘 发表于2024-05-11 浏览7285 评论0

scala

1 flink基础（flink基本概念）

浩满 发表于2024-05-11 浏览6914 评论0

scala

Spark RDD内存数据集分配用源码让你更快理解原理（spark rdd数据结构）

ㅤ 发表于2024-05-11 浏览4613 评论0

scala

Flink大数据实时标签实时ETL --03加载规则类 (source Mysql)

Ai潼泺 发表于2024-05-11 浏览5337 评论0

mysql

MySQL数据库实验二：数据查询（mysql数据库实验3查询）

杨勇 发表于2024-05-11 浏览7869 评论0

scala

Spark源码阅读03-Spark存储原理之共享变量（spark共享变量的两种方式）

Calm 发表于2024-05-10 浏览5171 评论0

scala

【flink集群+高可用搭建】（flink集群部署）

网站开发 发表于2024-05-10 浏览3807 评论0

scala

大数据之Scala 面向对象完整使用(第六章)（scala具备面向对象和面向函数）

blmblm 发表于2024-05-10 浏览4929 评论0

MSSQL教程

数据库同步有哪些方式？【怎么保障目标和源数据一致性】

搬砖的菜鸟 发表于2024-05-10 浏览18812 评论0

scala

flink集群standalone 模式搭建

造梦先生 发表于2024-05-10 浏览6014 评论0

« 2023年9月 »
一	二	三	四	五	六	日
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30