×

mysql

MySQL分区表详解(MySQL 分区表)

A-婷婷 A-婷婷 发表于2024-06-17 浏览13875 评论0
通常情况下,同一张表的数据在物理层面都是存放在一起的。随着业务增长,当同一张表的数据量过大时,会带来管理上的不便。而分区特性可以将一张表从物理层面根据一定的规则将数据划分为多个分区,多个分区可以单独管理,甚至存放在不同的磁盘/文件系统上,提升效率。 分区表的优点: 数据可以跨磁盘/文件系统存储,适合存储大量数据。 数据的管理非常方便,以分区为单位操作数据,不会影响其他分区的正常运行。 数据查询上在某些条件可以利用分区裁剪(partition pruning)特性,将搜索范围快速定位到特性分

scala

Flink ① <概述>特点,应用场景,组成,处理模型,选型 <快速应用> Java及Scala版WCount <体系结构>角色,架构 <安装部署>StandAlone 模式

欢乐多多 欢乐多多 发表于2024-06-17 浏览6197 评论0
目录 第一部分 Flink 概述 第 1 节 什么是 Flink 第 2 节 Flink 特点 第 3 节 Flink 应用场景 3.1 事务型处理 3.2 分析型处理 第 4 节 Flink 核心组成及生态发展 4.1 Flink核心组成 4.2 Flink生态发展 第 5 节 Flink 处理模型:流处理与批处理 第 6 节 流处理引擎的技术选型 第二部分 Flink快速应用 第 1 节 单词统计案例(批数据) 1.1 需求 1.2 代码实现 第 2 节

scala

【回顾】RDD的转换算子 Transform

乔帅-域名批发 乔帅-域名批发 发表于2024-06-17 浏览5853 评论0
一、概念 RDD方法 称之为 RDD算子 认知心理学人为解决问题其实将问题的状态进行改变 问题(初始)-> 操作(算子)-> 问题(审核中)-> 操作(算子)-> 问题(完成) RDD 的方法和 scala 集和对象的方法不一样 集合对象的方法都是在同一个节点内存中完成的 RDD的方法可以将极端逻辑发送到Executor端(分布式节点)执行 为了区分不同的处理效果,所以将RDD 的方法称之为算子。RDD 的方法外部的操作都是在Dri

scala

Spark源码阅读03-Spark存储原理之共享变量(spark共享变量的两种方式)

Calm Calm 发表于2024-06-16 浏览5952 评论0
共享变量 通常情况下, 当一个函数传递给远程集群节点上运行的Spark操作时(如Map、Reduce), 该函数中所有的变量都会在各节点中创建副本, 在各节点中的变量相互隔离并由所在节点的函数进行调用, 并且这些变量的更新都不会传递回Driver程序。 在任务间进行通用、 可读写的共亨变量是低效的, 然而Spark还是提供了两种类型的共享变昼:广播变量和累加器 广播变量 广播变量允许开发人员在每个节点缓存只读的变量, 而不足在任务之间传递这些变量。 例如,使用广播变量能够高效地在集群每

scala

PySpark与GraphFrames的安装与使用(pyspark graphframe)

百度用户45065 百度用户45065 发表于2024-06-16 浏览19061 评论0
PySpark环境搭建 配置hadoop spark访问本地文件并执行运算时,可能会遇到权限问题或是dll错误。这是因为spark需要使用到Hadoop的winutils和hadoop.dll,首先我们必须配置好Hadoop相关的环境。可以到github下载:https://github.com/4ttty/winutils gitcode提供了镜像加速:https://gitcode.net/mirrors/4ttty/winutils 我选择了使用这个仓库提供的最高的Hadoop

html5教程

AES-256-CBC 加密解密(AES-256加密)

daimoway daimoway 发表于2024-06-16 浏览10635 评论0
 //AES加密/解密         //在线AES加密解密工具。         //            AES采用对称分组密码体制,         //            密钥长度支持为128/192/256bits。         //            用户密钥长度不足时,平台将以0x00自动填充。         //            IV也一样,自动填充,超出部分将被忽略。         //            加密时会将明文数据按16byte进行分组,