×

scala

词频的统计(词频的统计方法)

無言以對 無言以對 发表于2024-06-13 浏览6625 评论0
任务8、词频统计 -参看本博《经典案例【词频统计】十一种实现方式》 -针对单词文本文件,统计每个单词出现的次数 hello hadoop hello spark i love you hadoop and spark i learn hadoop and scala -思路:读取文件,通过拆分得到单词数组,定义一个哈希映射保存词频统计结果,遍历单词数组,如果第一次遇到某个单词,就在哈希映射里添加一个元素,单词为键,1为值;如果不是第一次遇到,那么在哈希映射里找到该键,将其值加1…… (一)编

scala

在实践中学习Hadoop计算框架(01)--从0到Hadoop版“Hello word”:WordCount 的实现

下午茶 下午茶 发表于2024-06-13 浏览7419 评论0
第 3 章:Hadoop开发环境配置与搭建【实践篇】 基本思路: windows平台 ——(安装Vmware)——>创建N台虚拟机(裸机) ——(安装Linux操作系统)——>Linux平台 (如果是通过云服务器搭建,则省略上面两步。为什么?因为用票子了!) ——(集群部署)——>Hadoop平台(前夕准备) 接下来,才算是真正的要和Hadoop打交道了。你最准备好了吗? ——(安装模式:3选1)——>Hadoop平台 (了解即可) Hadoop 支持的

scala

SCALA环境搭建(3)_scala编译结果的反编译深入分析---大数据之_SCALA工作笔记006

零度 零度 发表于2024-06-13 浏览5480 评论0
然后我们来看一下,可以看到编译后的HelloScala.java 出现了 HelloScala$.class HelloScala.class 我们知道,.java文件编译成了.class,而.scala也编译成了.class,那么我们用 scala HelloScala可以运行 那么我们用 java HelloScala可以看到执行报错了. 对吧可以看到执行的时候,他去找scala.Predef$这个类去了

scala

Spark踩坑日记(spark笔记)

两碗 两碗 发表于2024-06-13 浏览5209 评论0
Spark日记 一 spark-sql元数据踩坑 踩坑背景: 工作需要我一直常开一个spark-sql进程,然后做了一个需求是重刷某个表的分区数据,重刷任务是在airflow调度的,此时已经有两个spark-sql进程了,刷新完毕后在我常开的spark-sql中去访问该分区数据,报文件找不到的异常(忘记截图),这个文件在分区路径下确实不存在,但是分区下是有数据的。然后重启spark-sql,问题解决。 个人猜测 猜测是元数据引起,每个spark-sql会cache一份metad

scala

(三)Flink1.15 发布最新版本说明(flink1.12 发布)

ipacer ipacer 发表于2024-06-13 浏览6790 评论0
官网 https://nightlies.apache.org/flink/flink-docs-release-1.15/release-notes/flink-1.15 变化的依赖概况 在Flink 1.15中有几个变化,当从早期版本升级时,需要更新依赖项名称,主要包括从非Scala模块中选择排除Scala依赖项,以及重新组织表模块。 一个快速的依赖变化清单如下: 对以下模块的任何依赖都需要更新,以不再包含后缀: flink-cep flink-clients flink-

scala

[CDH] Spark 属性、内存、CPU相关知识梳理(spark核数和内存)

李秋波 李秋波 发表于2024-06-13 浏览7415 评论0
version:2.4.0-cdh6.3.0 spark properties 常用配置 配置属性的2种方式: 通过SparkConf对象在程序内设置 通过spark- submit --conf/-c 在程序提交时设置,此外spark-submit还会读取conf/spark-defaults.conf中的属性 对于未设置的属性,spark会使用默认值。 spark属性大致可以分为两类: 和部署(deploy)相关的,这一类需要在配置文件中或spark-submit时

scala

在实践中学习Spark计算框架(00)(spark基于什么计算框架)

浩满 浩满 发表于2024-06-13 浏览6790 评论0
Spark编程基础:00.初步了解 参考书籍:厦门大学-林子雨-Spark编程基础 ———————————————————— 先修课程:(当前状况:了解) 1.大数据技术导论:《大数据技术原理与应用》 2.数据库系统原理:(了解关系数据库与SQL语句) 3.编程能力:(了解面向对象编程基础知识,如Java、C++) ———————————————————— 《Spark编程基础》简介: 以 Scala 作为开发 Spark 应用程序的编程语言。 全书共 8 章: 1.大数据技术概述