×

scala

spark复习(spark读书笔记)

刚刚好 刚刚好 发表于2024-05-25 浏览6320 评论0
在学习spark之前我们应该已经学习了Scala语法,spark是通过scala语言编写的,对scala语言的支持较好 目录 一、spark的搭建模式 二、 spark中的一些重要名词的功能及内部组成 三、RDD 转换算子(transformation) 行为算子(Action) 四、资源申请和任务调度 五、缓存cache 六、checkpoint            ​      七、累加器和广播变量 八、分区 一、spark的搭建模式 local:一般

scala

大数据Flume自定义类型(大数据 flume)

dfgdg dfgdg 发表于2024-05-25 浏览4985 评论0
1 自定义 Interceptor 1.1 案例需求 使用 Flume 采集服务器本地日志,需要按照日志类型的不同,将不同种类的日志发往不同的分析系统。 1.2 需求分析:Interceptor和Multiplexing ChannelSelector案例 在实际的开发中,一台服务器产生的日志类型可能有很多种,不同类型的日志可能需要发送到不同的分析系统。此时会用到 Flume 拓扑结构中的 Multiplexing 结构,Multiplexing的原理是,根据 event

scala

Linux 常用软件及国内镜像站(linux镜像工具)

simoore simoore 发表于2024-05-25 浏览5352 评论0
最近也在学Linux,总结可能用到的国内镜像站,和一些常用到软件的镜像下载地址,分享一下,不喜勿喷!!! (1)国内镜像站: 华为镜像:https://mirrors.huaweicloud.com/home/ 清华大学镜像:https://mirrors.tuna.tsinghua.edu.cn/ 阿里云镜像:https://developer.aliyun.com/mirror/ (2)常用软件下载地址: jdk: https://repo.huaweicloud.com/java/jd

scala

数据结构+spark(数据结构spark)

写真素材中心 写真素材中心 发表于2024-05-25 浏览4317 评论0
赫夫曼树 1)给定n个权值作为n个叶子结点,构造一棵二叉树,若该树的带权路径长度(wpl)达到最小,称这样的二叉树为最优二叉树,也称为哈夫曼树(Huffman Tree), 还有的书翻译为霍夫曼树。 2)赫夫曼树是带权路径长度最短的树,权值较大的结点离根较近。 构成赫夫曼树的步骤: 1)从小到大进行排序, 将每一个数据,每个数据都是一个节点 , 每个节点可以看成是一颗最简单的二叉树 2)取出根节点权值最小的两颗二叉树 3)组成一颗新的二叉树, 该新的二叉树的根节点的权值是前

分布式

vwmare 15“无权输入许可证密钥...”与出现新问题hadoop集群无法启动

king king 发表于2024-05-25 浏览9305 评论0
文章最后更新于2022.5.27,2:18am,希望对你有帮助 “您无权输入许可证密钥...”与解决方法 备份了虚拟机的所有文件,重置了电脑后,再把虚拟机的所有文件移动回原来的位置(文件路径不变),原本以为这样不会出现任何问题的。 结果当打开输入密钥的时候,出现这个问题 一开始以为是没有“以管理员身份运行”导致无法输入密钥,但后来以管理员身份运行后也不行 >_<没办法,上网看看怎么解决呗 上网查百度、CSDN后,有几种方法: 1、有说 卸载重

scala

大数据课程——Spark RDD 编程(spark大数据编程实用教程pdf)

帝王组仁希 帝王组仁希 发表于2024-05-25 浏览4255 评论0
大数据课程——Spark RDD 编程   实验内容以及要求 现有大约500万条搜索引擎产生的记录,数据格式如下: 每一行包含6个字段: 字段1代表数据产生的时间; 字段2代表用户,即UID; 字段3代表用户搜索关键词; 字段4代表URL超链接在返回结果中的排名; 字段5代表用户单击超链接的顺序号; 字段6代表用户单击的URL超链接的地址。 请编写Scala程序,实现如下功能: (1)统计用户数量,输出格式如下: (2)统计搜索次数在20次及以上的用户UID及搜索次数,输出格式(