big data 第34页 - 星花园站长资源网

1 Scala 1.1 使用编译器在IDEA上配置的Maven的pom.xml为： 1.1.1 Spark3.1版本 1.1.1.1 配置 <?xml version="1.0" encoding="UTF-8"?> <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"

scala

spark复习（spark读书笔记）

刚刚好 发表于2024-05-25 浏览6320 评论0

在学习spark之前我们应该已经学习了Scala语法，spark是通过scala语言编写的，对scala语言的支持较好目录一、spark的搭建模式二、 spark中的一些重要名词的功能及内部组成三、RDD 转换算子（transformation）行为算子（Action）四、资源申请和任务调度五、缓存cache 六、checkpoint　　　　　　　　　七、累加器和广播变量八、分区一、spark的搭建模式 local：一般

scala

大数据Flume自定义类型（大数据 flume）

dfgdg 发表于2024-05-25 浏览4985 评论0

1 自定义 Interceptor 1.1 案例需求使用 Flume 采集服务器本地日志，需要按照日志类型的不同，将不同种类的日志发往不同的分析系统。 1.2 需求分析:Interceptor和Multiplexing ChannelSelector案例在实际的开发中，一台服务器产生的日志类型可能有很多种，不同类型的日志可能需要发送到不同的分析系统。此时会用到 Flume 拓扑结构中的 Multiplexing 结构，Multiplexing的原理是，根据 event

scala

spark CTAS union all （union all的个数很多）导致超过spark.driver.maxResultSize配置（1G）

。发表于2024-05-25 浏览3902 评论0

背景该sql运行在spark版本 3.1.2下的thrift server下现象在运行包含多个union 的spark sql的时候报错（该sql包含了50多个uinon，且每个union字查询中会包含join操作），其中union中子查询sql类似如下： SELECT a1.order_no ,a1.need_column ,a1.join_id FROM temp

scala

Linux 常用软件及国内镜像站（linux镜像工具）

simoore 发表于2024-05-25 浏览5352 评论0

最近也在学Linux，总结可能用到的国内镜像站，和一些常用到软件的镜像下载地址，分享一下，不喜勿喷！！！（1）国内镜像站：华为镜像：https://mirrors.huaweicloud.com/home/ 清华大学镜像：https://mirrors.tuna.tsinghua.edu.cn/ 阿里云镜像：https://developer.aliyun.com/mirror/ （2）常用软件下载地址： jdk: https://repo.huaweicloud.com/java/jd

scala

数据结构+spark（数据结构spark）

写真素材中心 发表于2024-05-25 浏览4317 评论0

赫夫曼树 1)给定n个权值作为n个叶子结点，构造一棵二叉树，若该树的带权路径长度(wpl)达到最小，称这样的二叉树为最优二叉树，也称为哈夫曼树(Huffman Tree), 还有的书翻译为霍夫曼树。 2)赫夫曼树是带权路径长度最短的树，权值较大的结点离根较近。构成赫夫曼树的步骤： 1)从小到大进行排序, 将每一个数据，每个数据都是一个节点，每个节点可以看成是一颗最简单的二叉树 2)取出根节点权值最小的两颗二叉树 3)组成一颗新的二叉树, 该新的二叉树的根节点的权值是前

分布式

vwmare 15“无权输入许可证密钥...”与出现新问题hadoop集群无法启动

king 发表于2024-05-25 浏览9305 评论0

文章最后更新于2022.5.27，2:18am，希望对你有帮助 “您无权输入许可证密钥...”与解决方法备份了虚拟机的所有文件，重置了电脑后，再把虚拟机的所有文件移动回原来的位置（文件路径不变），原本以为这样不会出现任何问题的。结果当打开输入密钥的时候，出现这个问题一开始以为是没有“以管理员身份运行”导致无法输入密钥，但后来以管理员身份运行后也不行 >_<没办法，上网看看怎么解决呗上网查百度、CSDN后，有几种方法： 1、有说卸载重

scala

【回顾】SparkSQL 之用户自定义函数（sparksql内置函数）

小海 发表于2024-05-25 浏览5457 评论0

1、UDF UDF（User Defined Function）：spark SQL中用户自定义函数，用法和spark SQL中的内置函数类似；是saprk SQL中内置函数无法满足要求，用户根据业务需求自定义的函数基本使用步骤如下： 1) 创建 DataFrame scala> val df = spark.read.json("/home/data/spark/user.json") df: org.apache.spark.sql.DataFrame

正则表达式

PostgreSQL数据库中的修改字段

x176 发表于2024-05-25 浏览10264 评论0

两种方法： 1、ALTER TABLE 表名 ALTER COLUMN 字段名 TYPE 需要修改的类型 USING (字段名::需要修改的类型); 如： ALTER TABLE public.tableone ALTER COLUMN id_name TYPE bigint USING (yt_oil::bigint); 2、ALTER TABLE 表名 alter COLUMN 字段名 type 需要修改的类型; 如：ALTER TABLE public.tableone al

scala

sparkRDD算子数据处理实践（sparkrdd常用算子）

Calm 发表于2024-05-25 浏览4854 评论0

创建一个测试文件，RddTest，内容如下： [root@hadoop01 ~]# cd /export/data/ [root@hadoop01 data]# vim RddTest.txt hadoop spark itcast rdd scala spark spark itcast itcast hadoop 启动spark-shell 需要与hdfs交互时，启动spark-shell --master local[2]，并–jars添加hive中mysql的驱动

scala

Flink实时计算运用（二）Flink快速入门应用（flink 实时计算）

luck 发表于2024-05-25 浏览19520 评论0

1. Flink基础案例环境搭建配置 FLINK集成，POM配置 <dependencies>  <dependency> <groupId>org.apache.flink</groupId> <artifactId>flink-walkthrough-common_${scala.binary.version}</a

scala

大数据课程——Spark RDD 编程（spark大数据编程实用教程pdf）

帝王组仁希 发表于2024-05-25 浏览4255 评论0

大数据课程——Spark RDD 编程实验内容以及要求现有大约500万条搜索引擎产生的记录，数据格式如下: 每一行包含6个字段：字段1代表数据产生的时间；字段2代表用户，即UID；字段3代表用户搜索关键词；字段4代表URL超链接在返回结果中的排名；字段5代表用户单击超链接的顺序号；字段6代表用户单击的URL超链接的地址。请编写Scala程序，实现如下功能：（1）统计用户数量，输出格式如下：（2）统计搜索次数在20次及以上的用户UID及搜索次数，输出格式（

ZBlogIt

Nice to meet you, too!

django python 后端

If you have made it here shortly after t...

scala

Spark2.4到3.1版本迁移指南(包含Scala和PySpark版本)————附带详细配置信息和代码

社区客服 发表于2024-05-25 浏览6272 评论0

scala

spark复习（spark读书笔记）

刚刚好 发表于2024-05-25 浏览6320 评论0

scala

大数据Flume自定义类型（大数据 flume）

dfgdg 发表于2024-05-25 浏览4985 评论0

scala

spark CTAS union all （union all的个数很多）导致超过spark.driver.maxResultSize配置（1G）

。发表于2024-05-25 浏览3902 评论0

scala

Linux 常用软件及国内镜像站（linux镜像工具）

simoore 发表于2024-05-25 浏览5352 评论0

scala

数据结构+spark（数据结构spark）

写真素材中心 发表于2024-05-25 浏览4317 评论0

分布式

vwmare 15“无权输入许可证密钥...”与出现新问题hadoop集群无法启动

king 发表于2024-05-25 浏览9305 评论0

scala

【回顾】SparkSQL 之用户自定义函数（sparksql内置函数）

小海 发表于2024-05-25 浏览5457 评论0

正则表达式

PostgreSQL数据库中的修改字段

x176 发表于2024-05-25 浏览10264 评论0

scala

sparkRDD算子数据处理实践（sparkrdd常用算子）

Calm 发表于2024-05-25 浏览4854 评论0

scala

Flink实时计算运用（二）Flink快速入门应用（flink 实时计算）

luck 发表于2024-05-25 浏览19520 评论0

scala

大数据课程——Spark RDD 编程（spark大数据编程实用教程pdf）

帝王组仁希 发表于2024-05-25 浏览4255 评论0

« 2023年9月 »
一	二	三	四	五	六	日
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30