×

scala

Spark 数据倾斜处理(spark 解决数据倾斜)

 发表于2024-05-11 浏览6909 评论0
数据倾斜的问题优先从数据源解决,以下方法是辅助缓解: (1)spark-sql任务,可以尝试distribute by () 某个字段或者可以确定唯一维度值(某几个联合字段) (2)参考文档调优 https://blog.csdn.net/lsshlsw/article/details/52025949 (3)数据倾斜的定位方法: 选取key,对数据进行抽样,统计出现的次数,根据出现次数大小排序取出前几个 spark-shell获取数据不均衡的数据 scala>val c

mysql

MySQL分区表详解(MySQL 分区表)

A-婷婷 A-婷婷 发表于2024-05-11 浏览13445 评论0
通常情况下,同一张表的数据在物理层面都是存放在一起的。随着业务增长,当同一张表的数据量过大时,会带来管理上的不便。而分区特性可以将一张表从物理层面根据一定的规则将数据划分为多个分区,多个分区可以单独管理,甚至存放在不同的磁盘/文件系统上,提升效率。 分区表的优点: 数据可以跨磁盘/文件系统存储,适合存储大量数据。 数据的管理非常方便,以分区为单位操作数据,不会影响其他分区的正常运行。 数据查询上在某些条件可以利用分区裁剪(partition pruning)特性,将搜索范围快速定位到特性分

分布式

hbase踩坑记---HMaster启动后不久就消失(hbase-2.2.4版本)

枫叶?飘飘 枫叶?飘飘 发表于2024-05-11 浏览7285 评论0
版本介绍: hadoop-3.1.3 hbase-2.2.4 问题简述: 在学习HBase的过程中,安装后启动,开始是可以看见HMaster进程的,但是几秒后就消失了,反复尝试了几次,都是同样的情况,也就是启动失败。 问题分析: 因为HBase与hadoop的兼容性是一个重要的问题,因此我先考虑版本问题,查阅hbase官网,如下图: 版本兼容是没有问题的,不过这个问题仍然是是使用hbase需要重点关注的。 然后,在查看自己安装流程的过程中,我发现在hbase-site.xml配置中: &

scala

Spark源码阅读03-Spark存储原理之共享变量(spark共享变量的两种方式)

Calm Calm 发表于2024-05-10 浏览5171 评论0
共享变量 通常情况下, 当一个函数传递给远程集群节点上运行的Spark操作时(如Map、Reduce), 该函数中所有的变量都会在各节点中创建副本, 在各节点中的变量相互隔离并由所在节点的函数进行调用, 并且这些变量的更新都不会传递回Driver程序。 在任务间进行通用、 可读写的共亨变量是低效的, 然而Spark还是提供了两种类型的共享变昼:广播变量和累加器 广播变量 广播变量允许开发人员在每个节点缓存只读的变量, 而不足在任务之间传递这些变量。 例如,使用广播变量能够高效地在集群每

scala

大数据之Scala 面向对象完整使用(第六章)(scala具备面向对象和面向函数)

blmblm blmblm 发表于2024-05-10 浏览4929 评论0
一、面向对象 1、Scala 包 1)基本语法 package 包名 2)Scala 包的三大作用(和 Java 一样) (1)区分相同名字的类 (2)当类很多时,可以很好的管理类 (3)控制访问范围 3) 包的命名 1)命名规则 只能包含数字、字母、下划线、小圆点.,但不能用数字开头,也不要使用关键字。 2)案例实操 demo.class.exec1 //错误,因为 class 关键字 demo.12a //错误,数字开头 3)命名规范 一般是小写字母

MSSQL教程

数据库同步有哪些方式?【怎么保障目标和源数据一致性】

搬砖的菜鸟 搬砖的菜鸟 发表于2024-05-10 浏览18812 评论0
摘要 数据库同步有3大难题: 1是如何保障目标和源数据一致性; 2是异构数据库如何做数据类型转换,导致数据同步失败的原因常常是因为数据类型不一样; 3是在数据越实时越有价值的背景下,同步过程中能否做到实时同步。 一、几种主流的数据库同步方式 方式一:基于无侵入的日志模式(如Oracle redo、Mysql binlog) 基于日志的采集方式无需在源库端部署任务代理程序(Agent)及建任何表,对源数据库无侵入和影响压力; 方式二:基于时间戳 同步过程通过特定属性(如时间戳、

scala

flink集群standalone 模式搭建

造梦先生 造梦先生 发表于2024-05-10 浏览6014 评论0
一:准备工作: 1、下载flink Apache Flink: Downloads 建议选择老一两个的版本,对应的版本,我选择的是: 2、scala选择对应的版本,并安装好,这里可以我的博文: spark集群的安装配置_古柯(●—●)的博客-CSDN博客_spark集群安装 3、下载与hadoopde 集成包  这里注意选择自己对应的hadoop版本 并确保hadoop集群可以使用。按爪个Hadoop的博文: hadoop基础hdfs集群的安装配置_古柯(●—●)的