big data 第26页 - 星花园站长资源网

PyQt4 PySide 输入对话框 脚本之家

free delivery lioresal https://pornmake....

...

还有 59 人发表了评论加入8905人围观

scala

基于Scala版本的TMDB大数据电影分析项目

枫叶?飘飘 发表于2024-06-09 浏览5205 评论0

怒发冲冠为红颜基于kaggle的TMDB电影数据集的数据分析，该数据集包括了大约5000部电影的相关信息。先来看一下TMDB电影数据集的数据该数据集其实是csv文件，里面记录这美国这些年上映的电影，以及电影的种类，观看人数，主题，以及打分等详细信息。先来看一下各个字段的意义不过需要注意的是，在csv文件里面并没有表头，也就是说并没有上面字段。所以在使用Spark SQL处理该数据集的时候，

scala

Spark学习笔记[1]-scala环境安装与基本语法（scala编写spark程序）

x176 发表于2024-06-09 浏览4495 评论0

Spark学习笔记[1]-scala环境安装与基本语法正所谓工欲善其事必先利其器，Spark的开发语言不是java而是scala，虽然都是运行于JVM，但是两门语言的基本特性还是有些不一样，这里说明一个概念，JVM不等于JAVA，任何语言只要能编译出符合JVM规范的class文件，都可以运行在JVM上相比于java，scala语言更加简简洁，且其实函数式编程语言，函数式变成语言的含义就是任何函数都是变量，有点类似于C++中的函数指针，由于语法很简洁，所以带来的问题就是相比于J

scala

Spark RDD 论文详解（三）Spark 编程接口（spark对rdd的操作）

启程广告 发表于2024-06-02 浏览7447 评论0

前言本文隶属于专栏《1000个问题搞定大数据技术体系》，该专栏为笔者原创，引用请注明来源，不足和错误之处请在评论区帮忙指出，谢谢！本专栏目录结构和参考文献请见1000个问题搞定大数据技术体系目录 Spark RDD 论文详解（一）摘要和介绍 Spark RDD 论文详解（二）RDDs Spark RDD 论文详解（三）Spark 编程接口 Spark RDD 论文详解（四）表达 RDDs Spark RDD 论文详解（五）实现 Spark RDD 论文详解

MSSQL教程

用结构化思维吃透MySQL面试题——再也不怕连环问（mysql面试题及答案）

乄 发表于2024-06-02 浏览3395 评论0

面试经常碰到的两个问题： 1、很多人应该有过面试大厂的经历，不论你从事的是前端、后端还是大数据。即使你认为与你毫无关系，甚至一辈子可能也用不到Mysql, 但是面试官依然会问你关于MYSQL的问题呢？为什么？ 2、面试官的各种连环问，让很多面试者瑟瑟发抖，辛辛苦苦死记硬背了几百道题，一着急，忘记的一干二净，叫天不应，叫地不灵~~只有绝望二字。为什么会这样？目录一、基础篇(考察你的基本功) 第1问：char 和 varchar 四连问第2问：int(10

scala

五-中, Spark 算子吐血总结(转化+行动算子共三十七个)（spark的算子）

陈晗 发表于2024-06-02 浏览5187 评论0

五-中, Spark 算子吐血总结 5.1.4.3 RDD 转换算子(Transformation) 什么是算子? 在流处理、交互式查询中有个常用的概念是“算子”，在英文中被成为“Operation”，在数学上可以解释为一个函数空间到另一个函数空间上的映射O：X->X，其实就是一个处理单元，往往是指一个函数，在使用算子时往往会有输入和输出，算子则完成相应数据的转化，比如：Group、Sort等都是算子。从大方向来说, Spark算子(RDD

scala

【Spark】WordCount的多种实现方式

天道 发表于2024-06-02 浏览5018 评论0

准备工作查看数据创建SparkContext val spark = new SparkConf().setMaster("local[6]").setAppName("wordCount") val sc = new SparkContext(spark) val rdd = sc.textFile("data/wordcount.txt") 使用groupBy /** * 使用groupBy */ @Test def test

scala

大数据之Spark（大数据之下还有隐私吗）

任廷华 发表于2024-06-02 浏览5671 评论0

Spark介绍什么是Spark 专为大规模数据处理而设计的快速通用的计算引擎类 Hadoop MapReduce 的通用并行计算框架拥有 Hadoop MapReduce 所具有的优点但不同于 MapReduce 的是 Job 中间输出结果可以缓存在内存中，从而不再需要读写 HDFS ，减少磁盘数据交互因此 Spark 能更好地适用于数据挖掘与机器学习等需要迭代的算法 Spark 是 Scala 编写，方便快速编程 Spark与MR的区别都是分布式计算框架，

scala

Apache Livy 安装部署使用示例

刚需队长? 发表于2024-06-02 浏览7359 评论0

1. Apache Livy 简介官网：https://livy.apache.org/ Livy是一个提供rest接口和spark集群交互的服务。它可以提交spark job或者spark一段代码,同步或者异步的返回结果;也提供sparkcontext的管理,通过restfull接口或RPC客户端库。Livy也简化了与spark与应用服务的交互,这允许通过web/mobile与spark的使用交互。其他特点还包含: 长时间运行的SparkContext,允许多个spark

scala

实验四 Spark程序设计进阶（spark编程基础实验报告）

时间差O 发表于2024-06-02 浏览6857 评论0

数据来源：https://grouplens.org/datasets/movielens/ 使用的文件内容如下：用户表：电影表：评分表：三个表数据详情如下： 1、求被评分次数最多的 10 部电影，并给出评分次数（电影名，评分次数） package com.spark.homework.movie import org.apache.spark.{SparkConf, SparkContext} object code_01{ def main(args:

spring boot

SpringBoot+elasticsearchTemplate实现es索引数据的创建查询删除

下午茶 发表于2024-06-02 浏览5671 评论0

通过elasticsearch实现创建索引、创建mapping映射、插入数据、模糊查询索引、查询index所对应的mapping、数据的滚动条件查询、删除指定数据目录 elasticsearchTemplate创建索引、创建mapping映射（默认创建类型为doc） elasticsearchTemplate添加数据模糊查询index(查询以xxx开头的所有索引）并查询其对应的mapping包含的字段 elasticsearchTemplate滚动条件查询 elasticsear

scala

【回顾】Spark核心编程 --- 累加器 Accumulator

aniu 发表于2024-06-02 浏览4449 评论0

累加器 Accumulator 1、实现原理累加器用来把 Executor 端变量信息聚合到 Driver 端。在 Driver 程序中定义的变量，在 Executor 端的每个 Task 都会得到这个变量的一份新的副本，每个 task 更新这些副本的值后，传回 Driver 端进行 merge。 2、案例检测 package test03_rdd.accumulator import org.apache.spark.{SparkConf, SparkCon

scala

spark安装配置（spark安装部署）

呃哦 发表于2024-06-01 浏览4632 评论0

一、下载scala 1.下载 2.root命令下输入（或者+sudo） tar -zxvf scala-2.10.7.tgz -C /usr/hadoop/ 3.配置 vim /etc/profile 输入： export SCALA_HOME=/usr/hadoop/scala-2.10.7 export PATH=$PATH:$SCALA_HOME/bin 保存，退出 4.source /etc/profile (root用户或+sudo) 成功截图二、安

« 2023年9月 »
一	二	三	四	五	六	日
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30

控制面板

您好，欢迎到访网站！
查看权限

网站分类

最近发表

最新留言

文章归档

2022年2月 (2538)

友情链接