×

MSSQL教程

【postgresql】数据类型bpchar,varchar,char,text之间的区别与联系

哄哄 哄哄 发表于2024-05-30 浏览6283 评论0
【postgresql】数据类型bpchar,varchar,char,text之间的区别与联系 背景 在使用postgresql,及实际开发及数据整理过程中,常遇见来自不同源端或不同开发人员的数据表,其字段格式相同但却有少许不一致,如text ,bpchar,varchar,char等等格式,在进行数据整合时常需要一个个去检查字段格式并做出调整 下面整理了下面几种格式的区别: text 这种格式起源与MySQL数据库,当时是为了存储unicode型的长字符串,在postgre

scala

(3)spark RDD算子详解(spark rdd 算子)

软件开发ampCharles 软件开发ampCharles 发表于2024-05-30 浏览5672 评论0
RDD 算子 其实就是rdd方法,和scala方法区分开来 分为两种 转换算子 和行动算子 转换算子 功能的补充封装 将旧的RDD包装成新的RDD 比如 map flatmap 整体上分为Value类型、双Value类型和Key-Value类型 Value类型 map算子 每次处理一条数据,对数据或数据类型进行转换 def main(args: Array[String]): Unit = { val sparkConf = new SparkConf

scala

【Linux上安装Scala】

shabibani shabibani 发表于2024-05-30 浏览5018 评论0
一、Linux上安装Scala (一)到Scala官网下载Scala Scala2.11.12下载网址:https://www.scala-lang.org/download/2.11.12.html 单击【scala-2.11.12.tgz】超链接,将scala安装包下载到本地 (二)安装Scala 1、登录ied虚拟机 利用FinalShell登录LEE虚拟机 2、上传scala安装包到ied虚拟机 进入/data/package目录,将scala

scala

flink 自定义udf,udtf(flink 自定义sink)

阿信。 阿信。 发表于2024-05-30 浏览7400 评论0
1、在大多数情况下,用户定义的函数必须先注册,然后才能在查询中使用。不需要专门为 Scala 的 Table API 注册函数。 2、函数通过调用 registerFunction()方法在 TableEnvironment 中注册。当用户定义的函数 被注册时,它被插入到 TableEnvironment 的函数目录中, 这样 Table API 或 SQL 解析器就可 以识别并正确地解释它 1、标量函数 用户定义的标量函数,可以将 0、1 或多个标量值,映射到新的标量值。 为了

scala

spark的使用(spark 使用)

真 发表于2024-05-30 浏览5782 评论0
Spark简介   spark是通过scala进行编写的,是一个快速,通用的大规模搜索引擎,与hadoop的MR类似,但是spark减少了shuffle过程来达到快速处理的效果从而可以实现数据的实时流处理,Spark Streaming将流式计算分解成一系列短小的批处理计算,并且提供高可靠和吞吐量服务。值得说明的是,无论是Spark SQL、Spark Streaming、GraphX还是MLlib,都可以使用Spark核心API处理问题,它们的方法几乎是通用的,处理的数据也可以共享,不仅减少

scala

大数据技术原理与应用作业九(大数据技术原理与应用作业九年级)

qq_45zcwatb qq_45zcwatb 发表于2024-05-29 浏览6255 评论0
大数据技术原理与应用作业九 1. Spark是基于内存计算的大数据计算平台,试述Spark的主要特点。 Spark具有如下4个主要特点: 运行速度快; 容易使用; 通用性; 运行模式多样。 2. Spark的出现是为了解决Hadoop MapReduce的不足,试列举Hadoop MapReduce的几个缺陷,并说明Spark具备哪些优点。 Hadoop存在以下缺点: 表达能力有限; 磁盘IO开销大; 延迟高 Spark主要有如下优点: Spark的计算模式也属于Ma

分布式

kafka的副本以及分区与副本的关系(kafka分区和副本关系)

水 发表于2024-05-29 浏览8659 评论0
一 副本的作用 1.Kafka 副本作用:提高数据可靠性。 2.Kafka 中副本分为:Leader 和 Follower。Kafka 生产者只会把数据发往 Leader, 然后 Follower 找 Leader 进行同步数据。 读写由leader来完成,follower只备份,和leader同步数据,leader发生故障,follower顶上去。 leader副本:可以理解为某个分区中,除了不是副本的那个分区。 3.Kafka 分区中的所有副本统称为 AR(Assig

scala

大数据之SparkSQL 完整使用 (第八章)(大数据spark题库)

毕业设计 毕业设计 发表于2024-05-29 浏览5552 评论0
SparkSQL 概述 一、SparkSQL 是什么 Spark SQL 是 Spark 用于结构化数据(structured data)处理的 Spark 模块。 二、Hive and SparkSQL SparkSQL 的前身是 Shark,给熟悉 RDBMS 但又不理解 MapReduce 的技术人员提供快 速上手的工具。 Hive 是早期唯一运行在 Hadoop 上的 SQL-on-Hadoop 工具。但是 MapReduce 计算过程 中大量的中间磁盘落地过

gateway

INFINI Gateway:Elasticsearch 极限网关入门手册

孔维宇 孔维宇 发表于2024-05-29 浏览7847 评论0
最近,我有幸接触到 medcl 大神的杰作:极限网关(INFINI GATEWAY)。INFINI Gateway 有很多优点,也有很多应用的场景。你可以在官方网站上进行阅读。简单说来,极限网关(INFINI Gateway)是一个面向 Elasticsearch 的高性能应用网关,它包含丰富的特性,使用起来也非常简单。极限网关工作的方式和普通的反向代理一样,我们一般是将网关部署在 Elasticsearch 集群前面, 将以往直接发送给 Elasticsearch 的请求都发送给网关,再由网关

scala

Spark优化最全解析(spark的优化)

hongfei2019 hongfei2019 发表于2024-05-29 浏览6622 评论0
Spark 优化 资源调优 在部署spark集群中指定资源分配的默认参数 在spark安装包的conf下spark-env.sh文件 SPARK_WORKER_CORES SPARK_WORKER_MEMORY SPARK_WORKER_INSTANCES #每台机器启动worker数 在提交Application的时候给当前的Application分配更多的资源 提交命令选项:(在提交Application的时候使用选项) --executor-cores --exe