×

scala

Spark+Scala建设数仓和数据分析(scala开发spark)

indexie indexie 发表于2024-06-23 浏览25462 评论0
数据分析系统架构 一、系统架构图 数据分析平台采用Cloudrea Manager建设,使用Scala语言开发啊,Spark On Hive模式,Spark SQL进行数据分析,Hive+Hdfs作为数据仓库存储,Oozie进行工作流调度,通过Hue进行管理与应用 二、数仓各层介绍(ODS、DW、DM、共享库) DB 是现有的数据来源,可以为mysql、SQLserver、文件日志等,为数据仓库提供数据来源的一般存在于现有的业务系统之中。 ETL的是 Extract-

scala

大数据开发环境搭建系列一:环境搭建前的准备与集群的相关配置

杨聪 杨聪 发表于2024-06-20 浏览5754 评论0
1. 写在前面 最近学习推荐系统, 想做一个类似于企业上的那种推荐系统(采用的阿里天池赛的一个电商数据集, 然后基于大数据的Lambda架构, 实现离线和在线相结合的实时推荐系统), 这样可以熟悉一下真实环境中的推荐系统流程, 但是这里面需要大数据的开发环境, 所以这里的这个系列是记录自己搭建大数据开发环境的整个过程, 这里面会涉及到Hadoop集群,Spark, zookeeper, HBase, Hive, Kafka等的相关安装和配置,当然后面也会整理目前学习到的关于前面这些东西的相关

scala

Spark RDD算子详解(spark rdd 算子)

冬时茗 冬时茗 发表于2024-06-14 浏览6520 评论0
RDD方法=>RDD算子(Operator 操作) RDD的方法和Scala集合对象的方法不一样,集合对象的方法都是在同一个节点的内存中完成的。 RDD的方法可以将计算逻辑发送到Executor端(分布式节点)执行。为了区分不同的处理效果,所以将RDD的方法称之为算子。RDD的方法外部的操作都是在Driver端执行的,而方法内部的逻辑代码是在Executor端执行。算子字面看还是以计算为主,RDD不存放数据 转换算子(Transformation):功能的补充和封装,将旧的RD