首页 | big data 第26页 PyQt4 PySide 输入对话框 脚本之家 free delivery lioresal https://pornmake.... ... 还有 59 人发表了评论 加入8905人围观
scala 基于Scala版本的TMDB大数据电影分析项目 枫叶?飘飘 发表于2024-06-09 浏览5205 评论0 怒发冲冠为红颜 基于kaggle的TMDB电影数据集的数据分析,该数据集包括了大约5000部电影的相关信息。先来看一下TMDB电影数据集的数据 该数据集其实是csv文件,里面记录这美国这些年上映的电影,以及电影的种类,观看人数,主题,以及打分等详细信息。 先来看一下各个字段的意义 不过需要注意的是,在csv文件里面并没有表头,也就是说并没有上面字段。所以在使用Spark SQL处理该数据集的时候,
scala Spark学习笔记[1]-scala环境安装与基本语法(scala编写spark程序) x176 发表于2024-06-09 浏览4495 评论0 Spark学习笔记[1]-scala环境安装与基本语法 正所谓工欲善其事必先利其器,Spark的开发语言不是java而是scala,虽然都是运行于JVM,但是两门语言的基本特性还是有些不一样,这里说明一个概念,JVM不等于JAVA,任何语言只要能编译出符合JVM规范的class文件,都可以运行在JVM上 相比于java,scala语言更加简简洁,且其实函数式编程语言,函数式变成语言的含义就是任何函数都是变量,有点类似于C++中的函数指针,由于语法很简洁,所以带来的问题就是相比于J
scala Spark RDD 论文详解(三)Spark 编程接口(spark对rdd的操作) 启程广告 发表于2024-06-02 浏览7447 评论0 前言 本文隶属于专栏《1000个问题搞定大数据技术体系》,该专栏为笔者原创,引用请注明来源,不足和错误之处请在评论区帮忙指出,谢谢! 本专栏目录结构和参考文献请见1000个问题搞定大数据技术体系 目录 Spark RDD 论文详解(一)摘要和介绍 Spark RDD 论文详解(二)RDDs Spark RDD 论文详解(三)Spark 编程接口 Spark RDD 论文详解(四)表达 RDDs Spark RDD 论文详解(五)实现 Spark RDD 论文详解
MSSQL教程 用结构化思维吃透MySQL面试题——再也不怕连环问(mysql面试题及答案) 乄 发表于2024-06-02 浏览3395 评论0 面试经常碰到的两个问题: 1、很多人应该有过面试大厂的经历,不论你从事的是前端、后端还是大数据。即使你认为与你毫无关系,甚至一辈子可能也用不到Mysql, 但是面试官依然会问你关于MYSQL的问题呢?为什么? 2、面试官的各种连环问,让很多面试者瑟瑟发抖,辛辛苦苦死记硬背了几百道题,一着急,忘记的一干二净,叫天不应,叫地不灵~~只有绝望二字。为什么会这样? 目录 一、基础篇(考察你的基本功) 第1问:char 和 varchar 四连问 第2问:int(10
scala 五-中, Spark 算子 吐血总结(转化+行动算子共三十七个)(spark的算子) 陈晗 发表于2024-06-02 浏览5187 评论0 五-中, Spark 算子吐血总结 5.1.4.3 RDD 转换算子(Transformation) 什么是算子? 在流处理、交互式查询中有个常用的概念是“算子”,在英文中被成为“Operation”,在数学上可以解释为一个函数空间到另一个函数空间上的映射O:X->X,其实就是一个处理单元,往往是指一个函数,在使用算子时往往会有输入和输出,算子则完成相应数据的转化,比如:Group、Sort等都是算子。 从大方向来说, Spark算子(RDD
scala 【Spark】WordCount的多种实现方式 天道 发表于2024-06-02 浏览5018 评论0 准备工作 查看数据创建SparkContext val spark = new SparkConf().setMaster("local[6]").setAppName("wordCount") val sc = new SparkContext(spark) val rdd = sc.textFile("data/wordcount.txt") 使用groupBy /** * 使用groupBy */ @Test def test
scala 大数据之Spark(大数据之下还有隐私吗) 任廷华 发表于2024-06-02 浏览5671 评论0 Spark介绍 什么是Spark 专为大规模数据处理而设计的快速通用的计算引擎 类 Hadoop MapReduce 的通用并行计算框架 拥有 Hadoop MapReduce 所具有的优点 但不同于 MapReduce 的是 Job 中间输出结果可以缓存在内存中,从而不再需要读写 HDFS ,减少磁盘数据交互 因此 Spark 能更好地适用于数据挖掘与机器学习等需要迭代的算法 Spark 是 Scala 编写,方便快速编程 Spark与MR的区别 都是分布式计算框架,
scala Apache Livy 安装部署使用示例 刚需队长? 发表于2024-06-02 浏览7359 评论0 1. Apache Livy 简介 官网:https://livy.apache.org/ Livy是一个提供rest接口和spark集群交互的服务。它可以提交spark job或者spark一段代码,同步或者异步的返回结果;也提供sparkcontext的管理,通过restfull接口或RPC客户端库。Livy也简化了与spark与应用服务的交互,这允许通过web/mobile与spark的使用交互。其他特点还包含: 长时间运行的SparkContext,允许多个spark
scala 实验四 Spark程序设计进阶(spark编程基础实验报告) 时间差O 发表于2024-06-02 浏览6857 评论0 数据来源:https://grouplens.org/datasets/movielens/ 使用的文件内容如下: 用户表: 电影表: 评分表: 三个表数据详情如下: 1、求被评分次数最多的 10 部电影,并给出评分次数(电影名,评分次数) package com.spark.homework.movie import org.apache.spark.{SparkConf, SparkContext} object code_01{ def main(args:
spring boot SpringBoot+elasticsearchTemplate实现es索引数据的创建查询删除 下午茶 发表于2024-06-02 浏览5671 评论0 通过elasticsearch实现创建索引、创建mapping映射、插入数据、模糊查询索引、查询index所对应的mapping、数据的滚动条件查询、删除指定数据 目录 elasticsearchTemplate创建索引、创建mapping映射(默认创建类型为doc) elasticsearchTemplate添加数据 模糊查询index(查询以xxx开头的所有索引)并查询其对应的mapping包含的字段 elasticsearchTemplate滚动条件查询 elasticsear
scala 【回顾】Spark核心编程 --- 累加器 Accumulator aniu 发表于2024-06-02 浏览4449 评论0 累加器 Accumulator 1、实现原理 累加器用来把 Executor 端变量信息聚合到 Driver 端。在 Driver 程序中定义的变量,在 Executor 端的每个 Task 都会得到这个变量的一份新的副本,每个 task 更新这些副本的值后,传回 Driver 端进行 merge。 2、案例检测 package test03_rdd.accumulator import org.apache.spark.{SparkConf, SparkCon
scala spark安装配置(spark安装部署) 呃哦 发表于2024-06-01 浏览4632 评论0 一、下载scala 1.下载 2.root命令下输入(或者+sudo) tar -zxvf scala-2.10.7.tgz -C /usr/hadoop/ 3.配置 vim /etc/profile 输入: export SCALA_HOME=/usr/hadoop/scala-2.10.7 export PATH=$PATH:$SCALA_HOME/bin 保存,退出 4.source /etc/profile (root用户或+sudo) 成功截图 二、安