×

scala

基于Scala版本的TMDB大数据电影分析项目

枫叶?飘飘 枫叶?飘飘 发表于2024-06-09 浏览5205 评论0
怒发冲冠为红颜         基于kaggle的TMDB电影数据集的数据分析,该数据集包括了大约5000部电影的相关信息。先来看一下TMDB电影数据集的数据           该数据集其实是csv文件,里面记录这美国这些年上映的电影,以及电影的种类,观看人数,主题,以及打分等详细信息。         先来看一下各个字段的意义         不过需要注意的是,在csv文件里面并没有表头,也就是说并没有上面字段。所以在使用Spark SQL处理该数据集的时候,

scala

Spark学习笔记[1]-scala环境安装与基本语法(scala编写spark程序)

x176 x176 发表于2024-06-09 浏览4495 评论0
Spark学习笔记[1]-scala环境安装与基本语法   正所谓工欲善其事必先利其器,Spark的开发语言不是java而是scala,虽然都是运行于JVM,但是两门语言的基本特性还是有些不一样,这里说明一个概念,JVM不等于JAVA,任何语言只要能编译出符合JVM规范的class文件,都可以运行在JVM上   相比于java,scala语言更加简简洁,且其实函数式编程语言,函数式变成语言的含义就是任何函数都是变量,有点类似于C++中的函数指针,由于语法很简洁,所以带来的问题就是相比于J

scala

Spark RDD 论文详解(三)Spark 编程接口(spark对rdd的操作)

启程广告 启程广告 发表于2024-06-02 浏览7447 评论0
前言 本文隶属于专栏《1000个问题搞定大数据技术体系》,该专栏为笔者原创,引用请注明来源,不足和错误之处请在评论区帮忙指出,谢谢! 本专栏目录结构和参考文献请见1000个问题搞定大数据技术体系 目录 Spark RDD 论文详解(一)摘要和介绍 Spark RDD 论文详解(二)RDDs Spark RDD 论文详解(三)Spark 编程接口 Spark RDD 论文详解(四)表达 RDDs Spark RDD 论文详解(五)实现 Spark RDD 论文详解

MSSQL教程

用结构化思维吃透MySQL面试题——再也不怕连环问(mysql面试题及答案)

乄 发表于2024-06-02 浏览3395 评论0
面试经常碰到的两个问题: 1、很多人应该有过面试大厂的经历,不论你从事的是前端、后端还是大数据。即使你认为与你毫无关系,甚至一辈子可能也用不到Mysql, 但是面试官依然会问你关于MYSQL的问题呢?为什么? 2、面试官的各种连环问,让很多面试者瑟瑟发抖,辛辛苦苦死记硬背了几百道题,一着急,忘记的一干二净,叫天不应,叫地不灵~~只有绝望二字。为什么会这样? 目录 一、基础篇(考察你的基本功) 第1问:char 和 varchar 四连问 第2问:int(10

scala

五-中, Spark 算子 吐血总结(转化+行动算子共三十七个)(spark的算子)

陈晗 陈晗 发表于2024-06-02 浏览5187 评论0
五-中, Spark 算子吐血总结 5.1.4.3 RDD 转换算子(Transformation) 什么是算子? 在流处理、交互式查询中有个常用的概念是“算子”,在英文中被成为“Operation”,在数学上可以解释为一个函数空间到另一个函数空间上的映射O:X->X,其实就是一个处理单元,往往是指一个函数,在使用算子时往往会有输入和输出,算子则完成相应数据的转化,比如:Group、Sort等都是算子。 从大方向来说, Spark算子(RDD

scala

大数据之Spark(大数据之下还有隐私吗)

任廷华 任廷华 发表于2024-06-02 浏览5671 评论0
Spark介绍 什么是Spark 专为大规模数据处理而设计的快速通用的计算引擎 类 Hadoop MapReduce 的通用并行计算框架 拥有 Hadoop MapReduce 所具有的优点 但不同于 MapReduce 的是 Job 中间输出结果可以缓存在内存中,从而不再需要读写 HDFS ,减少磁盘数据交互 因此 Spark 能更好地适用于数据挖掘与机器学习等需要迭代的算法 Spark 是 Scala 编写,方便快速编程 Spark与MR的区别 都是分布式计算框架,

scala

Apache Livy 安装部署使用示例

刚需队长? 刚需队长? 发表于2024-06-02 浏览7359 评论0
1. Apache Livy 简介 官网:https://livy.apache.org/ Livy是一个提供rest接口和spark集群交互的服务。它可以提交spark job或者spark一段代码,同步或者异步的返回结果;也提供sparkcontext的管理,通过restfull接口或RPC客户端库。Livy也简化了与spark与应用服务的交互,这允许通过web/mobile与spark的使用交互。其他特点还包含: 长时间运行的SparkContext,允许多个spark

spring boot

SpringBoot+elasticsearchTemplate实现es索引数据的创建查询删除

下午茶 下午茶 发表于2024-06-02 浏览5671 评论0
通过elasticsearch实现创建索引、创建mapping映射、插入数据、模糊查询索引、查询index所对应的mapping、数据的滚动条件查询、删除指定数据 目录 elasticsearchTemplate创建索引、创建mapping映射(默认创建类型为doc) elasticsearchTemplate添加数据 模糊查询index(查询以xxx开头的所有索引)并查询其对应的mapping包含的字段 elasticsearchTemplate滚动条件查询 elasticsear