首页 | hadoop 第9页 PyQt4 PySide 输入对话框 脚本之家 Your style is so unique in comparison to... ... 还有 59 人发表了评论 加入8185人围观
scala Linux下的Scala环境搭建,详细讲解,一遍就会 国王 发表于2024-04-20 浏览5331 评论0 本次搭建的Scala环境是scala-2.11.0 一、Scala环境搭建 1.进入到scala的上传目录下解压scala到/root下 [root@slave1 wenjian]# tar -zxvf scala-2.11.0.tgz -C /root/ 2.进入到/root目录下,修改scala的名称(主要是好记) [root@slave1 ~]# mv scala-2.11.0/ scala 3.添加scala的用户变量 [root@slave1 ~]# vim
scala Spark提交参数--files的使用(spark提交命令参数) 忽然一转身 发表于2024-04-20 浏览3416 评论0 项目场景: 我们有两个集群(ps:计算集群/存储集群),现在有个需求就是,计算集群运行Spark任务,从kafka取数据写到存储集群的hive 问题描述 跨集群读写数据,我们测试了写hbase是可以从计算集群向存储集群写的,而且能写进去。 但是一旦写hive 他就是写不存储集群的hive中,每次都只写到了计算集群的hive中。 这让我很费解,而且我在本地IDEA上测试的时候,就能写到存储集群的hive中,一旦上小海豚放集群上跑 他就写跑偏了,就给写到计算集群的hive里面了。我在re
scala 大数据从入门到实战 - RDD的创建 -Scala(创建一个rdd) 微信用户83175 发表于2024-04-20 浏览6868 评论0 叮嘟!这里是小啊呜的学习课程资料整理。好记性不如烂笔头,今天也是努力进步的一天。一起加油进阶吧! 一、关于此次实践 1、实战简介 Spark提供了两种创建RDD的方式: (1)由一个已经存在的Scala集合进行创建。 (2)由外部存储系统的数据集创建,包括本地的文件系统,还有所有Hadoop支持的数据集,比如HDFS、Cassandra、HBase等。 2、全部任务 第1关:实践题 集合并行化创建RDD 第2关:实践题 读取外部数据集创建RDD 二、实践详解
scala Spark Hive实现基于协同过滤的电影推荐(MovieLens数据集) 曾经天真︶﹋ 发表于2024-04-20 浏览4695 评论0 这篇文章记录一下我之前做过的通过Spark与Hive实现的基于协调过滤的电影推荐。这篇文章只能提供算法、思路和过程记录,并没有完整的代码,仅尽量全面地记录过程细节方便参考。 一、数据获取 数据集是从下面这个地址下载的,数据集主要内容是关于用户对电影的评分、评价等。免费数据集下载(很全面)_浅笑古今的博客-CSDN博客_数据集下载网站 图1.1 数据获取 我选取的几个数据集表格如下: 图1.2 数据表格 图1.3 rating表 图1.4 movies表
scala 安装Spark和Scala(安装spark和sparksql) 丘 发表于2024-04-20 浏览5719 评论0 上篇完成后操作此篇 解压到安装目录 tar zxvf /h3cu/spark-2.1.1-bin-hadoop2.7.tgz -C /usr/local/src/ 创建软链快捷键 ln -s /usr/local/src/spark-2.1.1-bin-hadoop2.7 /usr/local/src/spark 查看软链快捷键 ls -il 删除软链快捷键 rm -rf symbolic_name 注意不是rm -rf symbolic_name/
scala 大数据技术---Spark(大数据技术spark电子版 林子雨) ????&Y 发表于2024-04-20 浏览5902 评论0 一、Spark简介 1、Spark概述 Spark:由美国加州伯克利大学的AMP实验室于2009年开发,基于内存计算的大数据并行计算框架,可用于构建大型的、低延迟的数据分析应用程序。 三大分布式计算系统开源项目:Hadoop、Spark、Storm。 Spark的特点: (1)运行速度块:使用DAG执行引擎以支持循环数据流与内存计算。 (2)容易使用:支持使用scala、Java、python和R语言进行编程,可以通过spark shell进行交互式编程。 (3)通用性:Spark提供了完整
scala Centos7安装spark(Hadoop伪分布下,以及spark的基本搭建) luck 发表于2024-04-20 浏览6071 评论0 参考博客 沉淀,再出发——在Hadoop集群的基础上搭建Spark - 精心出精品 - 博客园 (cnblogs.com) 博客上说明Hadoop伪分布也行 一、前提 1.java环境,jdk1.8及其以上,或者open角度看8及其以上,以便scala的安装 2.安装ssh(远程登陆服务器)这里我用xshell 3.Hadoop集群(这里在伪分布下实现) 4.安装scala根据博客安装的是2.11.8 https://downloads.lightbend.com/scala/2
scala Spark开发环境搭建(提供实验平台)(spark 环境搭建) 修无生 发表于2024-04-20 浏览5238 评论0 Spark开发环境搭建 1)Scala环境 1. 前置说明 安装与配置Scala开发环境。 实验平台直达链接 Scala是一种函数式面向对象语言,它融汇了许多前所未有的特性,而同时又运行于JVM之上。随着开发者对Scala的兴趣日增,以及越来越多的工具支持,无疑Scala语言将成为你手上一件必不可少的工具。 2. 解压配置 在Scala各版本安装包直达链接根据平台选择下载Scala的安装包 # 创建 app 目录 并解压 scala包 mkdir /app &
scala sparkSql数据离线处理--整理记录(spark 离线数据处理) ycjiaqi 发表于2024-04-20 浏览8291 评论0 sparkSql数据离线处理 前言:本文作为本人学习sparkSql离线数据抽取,离线数据处理的学习整理记录,文中参考博客均附上原文链接。 一、Hive环境准备 1、配置文件准备: /opt/hive/conf/hive-site.xml:(2021/12/31修改,添加了&useSSL=false&useUnicode=true&characterEncoding=utf8支持中文编码) <?xml version="1.0" encoding=
Ruby教程 Centos7.7升级Ruby版本 Ai潼泺 发表于2024-04-20 浏览4042 评论0 今天搭建redis-4.0.1版本的集群时,提示ruby的版本需要高于2.2.2,于是进行了升级,这里记录一下,方便你我。 第一步:安装ruby环境 第二步:查看版本 第三步:删除原来的rubygems仓库 [root@qianfeng04 ~]# gem sources --remove https://rubygems.org/ https://rubygems.org/ removed from sources 第四步: 添加aliyun的rubygems仓库并查看
正则表达式 Hive常用函数大全 正则表达式大全(hive正则表达式 详解) 黑牛哥 发表于2024-04-19 浏览5433 评论0 Hive函数大全 1数学函数 ceil 向上取整数 floor 向下取整数 abs 绝对值函数 bin 二进制函数 hex 十六进制函数 bround(DOUBLE a, INT d) 银行家舍入法,保留d位小数 rand ()随机值 round() 保留d位小数 2.日期函数 from_unixtime 时间戳转日期 unix_timestamp 获取时间戳 current_date 当前日期 to_date 转日期 datediff(string
scala RDD编程初级实践大作业(RDD编程初级实践) 忽然之间 发表于2024-04-19 浏览5219 评论0 1、 需求描述 本次实验需要使用Spark的RDD基本操作及键值对操作解决以下问题: 一、分析某大学计算机系的成绩数据集data.txt(该数据每行包括:姓名,科目,成绩 三项数据 某项数据以“,”隔开)并解决以下问题: (1)该系总共有多少学生; (2)该系共开设了多少门课程; (3)Tom同学的总成绩平均分是多少; (4)求每名同学的选修的课程门数; (5)该系DataBase课程共有多少人选修; (6)各门课程的平均分是多少; (7)使用累加器计算共有多少人选了DataBase这门