×

scala

Spark提交参数--files的使用(spark提交命令参数)

忽然一转身 忽然一转身 发表于2024-04-20 浏览3416 评论0
项目场景: 我们有两个集群(ps:计算集群/存储集群),现在有个需求就是,计算集群运行Spark任务,从kafka取数据写到存储集群的hive 问题描述 跨集群读写数据,我们测试了写hbase是可以从计算集群向存储集群写的,而且能写进去。 但是一旦写hive 他就是写不存储集群的hive中,每次都只写到了计算集群的hive中。 这让我很费解,而且我在本地IDEA上测试的时候,就能写到存储集群的hive中,一旦上小海豚放集群上跑 他就写跑偏了,就给写到计算集群的hive里面了。我在re

scala

大数据从入门到实战 - RDD的创建 -Scala(创建一个rdd)

微信用户83175 微信用户83175 发表于2024-04-20 浏览6868 评论0
叮嘟!这里是小啊呜的学习课程资料整理。好记性不如烂笔头,今天也是努力进步的一天。一起加油进阶吧! 一、关于此次实践 1、实战简介 Spark提供了两种创建RDD的方式: (1)由一个已经存在的Scala集合进行创建。 (2)由外部存储系统的数据集创建,包括本地的文件系统,还有所有Hadoop支持的数据集,比如HDFS、Cassandra、HBase等。 2、全部任务 第1关:实践题 集合并行化创建RDD 第2关:实践题 读取外部数据集创建RDD 二、实践详解

scala

Spark Hive实现基于协同过滤的电影推荐(MovieLens数据集)

曾经天真︶﹋ 曾经天真︶﹋ 发表于2024-04-20 浏览4695 评论0
  这篇文章记录一下我之前做过的通过Spark与Hive实现的基于协调过滤的电影推荐。这篇文章只能提供算法、思路和过程记录,并没有完整的代码,仅尽量全面地记录过程细节方便参考。 一、数据获取   数据集是从下面这个地址下载的,数据集主要内容是关于用户对电影的评分、评价等。免费数据集下载(很全面)_浅笑古今的博客-CSDN博客_数据集下载网站 图1.1 数据获取 我选取的几个数据集表格如下: 图1.2 数据表格 图1.3 rating表 图1.4 movies表

scala

大数据技术---Spark(大数据技术spark电子版 林子雨)

????&Y ????&Y 发表于2024-04-20 浏览5902 评论0
一、Spark简介 1、Spark概述 Spark:由美国加州伯克利大学的AMP实验室于2009年开发,基于内存计算的大数据并行计算框架,可用于构建大型的、低延迟的数据分析应用程序。 三大分布式计算系统开源项目:Hadoop、Spark、Storm。 Spark的特点: (1)运行速度块:使用DAG执行引擎以支持循环数据流与内存计算。 (2)容易使用:支持使用scala、Java、python和R语言进行编程,可以通过spark shell进行交互式编程。 (3)通用性:Spark提供了完整

scala

Centos7安装spark(Hadoop伪分布下,以及spark的基本搭建)

luck luck 发表于2024-04-20 浏览6071 评论0
参考博客 沉淀,再出发——在Hadoop集群的基础上搭建Spark - 精心出精品 - 博客园 (cnblogs.com) 博客上说明Hadoop伪分布也行 一、前提 1.java环境,jdk1.8及其以上,或者open角度看8及其以上,以便scala的安装 2.安装ssh(远程登陆服务器)这里我用xshell 3.Hadoop集群(这里在伪分布下实现) 4.安装scala根据博客安装的是2.11.8 https://downloads.lightbend.com/scala/2

scala

Spark开发环境搭建(提供实验平台)(spark 环境搭建)

修无生 修无生 发表于2024-04-20 浏览5238 评论0
Spark开发环境搭建 1)Scala环境 1. 前置说明 安装与配置Scala开发环境。 实验平台直达链接 Scala是一种函数式面向对象语言,它融汇了许多前所未有的特性,而同时又运行于JVM之上。随着开发者对Scala的兴趣日增,以及越来越多的工具支持,无疑Scala语言将成为你手上一件必不可少的工具。 2. 解压配置 在Scala各版本安装包直达链接根据平台选择下载Scala的安装包 # 创建 app 目录 并解压 scala包 mkdir /app &

scala

sparkSql数据离线处理--整理记录(spark 离线数据处理)

ycjiaqi ycjiaqi 发表于2024-04-20 浏览8291 评论0
sparkSql数据离线处理 前言:本文作为本人学习sparkSql离线数据抽取,离线数据处理的学习整理记录,文中参考博客均附上原文链接。 一、Hive环境准备 1、配置文件准备: /opt/hive/conf/hive-site.xml:(2021/12/31修改,添加了&useSSL=false&useUnicode=true&characterEncoding=utf8支持中文编码) <?xml version="1.0" encoding=

Ruby教程

Centos7.7升级Ruby版本

Ai潼泺 Ai潼泺 发表于2024-04-20 浏览4042 评论0
今天搭建redis-4.0.1版本的集群时,提示ruby的版本需要高于2.2.2,于是进行了升级,这里记录一下,方便你我。 第一步:安装ruby环境 第二步:查看版本 第三步:删除原来的rubygems仓库 [root@qianfeng04 ~]# gem sources --remove https://rubygems.org/ https://rubygems.org/ removed from sources 第四步: 添加aliyun的rubygems仓库并查看

正则表达式

Hive常用函数大全 正则表达式大全(hive正则表达式 详解)

黑牛哥 黑牛哥 发表于2024-04-19 浏览5433 评论0
  Hive函数大全 1数学函数 ceil 向上取整数 floor 向下取整数 abs 绝对值函数 bin 二进制函数 hex 十六进制函数 bround(DOUBLE a, INT d) 银行家舍入法,保留d位小数 rand ()随机值 round() 保留d位小数 ​ 2.日期函数 from_unixtime 时间戳转日期 unix_timestamp 获取时间戳 current_date 当前日期 to_date   转日期 datediff(string

scala

RDD编程初级实践大作业(RDD编程初级实践)

忽然之间 忽然之间 发表于2024-04-19 浏览5219 评论0
1、 需求描述 本次实验需要使用Spark的RDD基本操作及键值对操作解决以下问题: 一、分析某大学计算机系的成绩数据集data.txt(该数据每行包括:姓名,科目,成绩 三项数据 某项数据以“,”隔开)并解决以下问题: (1)该系总共有多少学生; (2)该系共开设了多少门课程; (3)Tom同学的总成绩平均分是多少; (4)求每名同学的选修的课程门数; (5)该系DataBase课程共有多少人选修; (6)各门课程的平均分是多少; (7)使用累加器计算共有多少人选了DataBase这门