首页 | big data 第34页 django python 后端 If you have made it here shortly after t... ... 期待你的精彩评论 加入4658人围观
scala Spark2.4到3.1版本迁移指南(包含Scala和PySpark版本)————附带详细配置信息和代码 社区客服 发表于2024-05-25 浏览6272 评论0 1 Scala 1.1 使用编译器 在IDEA上配置的Maven的pom.xml为: 1.1.1 Spark3.1版本 1.1.1.1 配置 <?xml version="1.0" encoding="UTF-8"?> <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
scala spark复习(spark读书笔记) 刚刚好 发表于2024-05-25 浏览6320 评论0 在学习spark之前我们应该已经学习了Scala语法,spark是通过scala语言编写的,对scala语言的支持较好 目录 一、spark的搭建模式 二、 spark中的一些重要名词的功能及内部组成 三、RDD 转换算子(transformation) 行为算子(Action) 四、资源申请和任务调度 五、缓存cache 六、checkpoint 七、累加器和广播变量 八、分区 一、spark的搭建模式 local:一般
scala 大数据Flume自定义类型(大数据 flume) dfgdg 发表于2024-05-25 浏览4985 评论0 1 自定义 Interceptor 1.1 案例需求 使用 Flume 采集服务器本地日志,需要按照日志类型的不同,将不同种类的日志发往不同的分析系统。 1.2 需求分析:Interceptor和Multiplexing ChannelSelector案例 在实际的开发中,一台服务器产生的日志类型可能有很多种,不同类型的日志可能需要发送到不同的分析系统。此时会用到 Flume 拓扑结构中的 Multiplexing 结构,Multiplexing的原理是,根据 event
scala spark CTAS union all (union all的个数很多)导致超过spark.driver.maxResultSize配置(1G) 。 发表于2024-05-25 浏览3902 评论0 背景 该sql运行在spark版本 3.1.2下的thrift server下 现象 在运行包含多个union 的spark sql的时候报错(该sql包含了50多个uinon,且每个union字查询中会包含join操作),其中union中子查询sql类似如下: SELECT a1.order_no ,a1.need_column ,a1.join_id FROM temp
scala Linux 常用软件及国内镜像站(linux镜像工具) simoore 发表于2024-05-25 浏览5352 评论0 最近也在学Linux,总结可能用到的国内镜像站,和一些常用到软件的镜像下载地址,分享一下,不喜勿喷!!! (1)国内镜像站: 华为镜像:https://mirrors.huaweicloud.com/home/ 清华大学镜像:https://mirrors.tuna.tsinghua.edu.cn/ 阿里云镜像:https://developer.aliyun.com/mirror/ (2)常用软件下载地址: jdk: https://repo.huaweicloud.com/java/jd
scala 数据结构+spark(数据结构spark) 写真素材中心 发表于2024-05-25 浏览4317 评论0 赫夫曼树 1)给定n个权值作为n个叶子结点,构造一棵二叉树,若该树的带权路径长度(wpl)达到最小,称这样的二叉树为最优二叉树,也称为哈夫曼树(Huffman Tree), 还有的书翻译为霍夫曼树。 2)赫夫曼树是带权路径长度最短的树,权值较大的结点离根较近。 构成赫夫曼树的步骤: 1)从小到大进行排序, 将每一个数据,每个数据都是一个节点 , 每个节点可以看成是一颗最简单的二叉树 2)取出根节点权值最小的两颗二叉树 3)组成一颗新的二叉树, 该新的二叉树的根节点的权值是前
分布式 vwmare 15“无权输入许可证密钥...”与出现新问题hadoop集群无法启动 king 发表于2024-05-25 浏览9305 评论0 文章最后更新于2022.5.27,2:18am,希望对你有帮助 “您无权输入许可证密钥...”与解决方法 备份了虚拟机的所有文件,重置了电脑后,再把虚拟机的所有文件移动回原来的位置(文件路径不变),原本以为这样不会出现任何问题的。 结果当打开输入密钥的时候,出现这个问题 一开始以为是没有“以管理员身份运行”导致无法输入密钥,但后来以管理员身份运行后也不行 >_<没办法,上网看看怎么解决呗 上网查百度、CSDN后,有几种方法: 1、有说 卸载重
scala 【回顾】SparkSQL 之 用户自定义函数(sparksql内置函数) 小海 发表于2024-05-25 浏览5457 评论0 1、UDF UDF(User Defined Function):spark SQL中用户自定义函数,用法和spark SQL中的内置函数类似;是saprk SQL中内置函数无法满足要求,用户根据业务需求自定义的函数 基本使用步骤如下: 1) 创建 DataFrame scala> val df = spark.read.json("/home/data/spark/user.json") df: org.apache.spark.sql.DataFrame
正则表达式 PostgreSQL数据库中的修改字段 x176 发表于2024-05-25 浏览10264 评论0 两种方法: 1、ALTER TABLE 表名 ALTER COLUMN 字段名 TYPE 需要修改的类型 USING (字段名::需要修改的类型); 如: ALTER TABLE public.tableone ALTER COLUMN id_name TYPE bigint USING (yt_oil::bigint); 2、ALTER TABLE 表名 alter COLUMN 字段名 type 需要修改的类型; 如:ALTER TABLE public.tableone al
scala sparkRDD算子数据处理实践(sparkrdd常用算子) Calm 发表于2024-05-25 浏览4854 评论0 创建一个测试文件,RddTest,内容如下: [root@hadoop01 ~]# cd /export/data/ [root@hadoop01 data]# vim RddTest.txt hadoop spark itcast rdd scala spark spark itcast itcast hadoop 启动spark-shell 需要与hdfs交互时,启动spark-shell --master local[2],并–jars添加hive中mysql的驱动
scala Flink实时计算运用(二)Flink快速入门应用(flink 实时计算) luck 发表于2024-05-25 浏览19520 评论0 1. Flink基础案例 环境搭建配置 FLINK集成,POM配置 <dependencies> <!-- Flink的核心依赖组件 --> <dependency> <groupId>org.apache.flink</groupId> <artifactId>flink-walkthrough-common_${scala.binary.version}</a
scala 大数据课程——Spark RDD 编程(spark大数据编程实用教程pdf) 帝王组仁希 发表于2024-05-25 浏览4255 评论0 大数据课程——Spark RDD 编程 实验内容以及要求 现有大约500万条搜索引擎产生的记录,数据格式如下: 每一行包含6个字段: 字段1代表数据产生的时间; 字段2代表用户,即UID; 字段3代表用户搜索关键词; 字段4代表URL超链接在返回结果中的排名; 字段5代表用户单击超链接的顺序号; 字段6代表用户单击的URL超链接的地址。 请编写Scala程序,实现如下功能: (1)统计用户数量,输出格式如下: (2)统计搜索次数在20次及以上的用户UID及搜索次数,输出格式(