×

scala

Windows下Pycharm的Spark、Hadoop、Scala安装及常见报错(graphframes避坑、jupyter的文件位置更换、conda环境建立)

品胜河南永城门店 品胜河南永城门店 发表于2024-04-30 浏览4262 评论0
目录 软件安装 1、jdk安装 2、Anaconda安装 3、scala安装 4、Hadoop安装 5、Spark安装 6、安装sbt  包安装 1、安装py4j 2、安装pyspark 接下来是新建python项目 1、项目配置 2、使用graphframes库 项目环境 jdk1.8.0_333 python3.7.13 scala2.11.8 hadoop2.7.1 spark2.4.3-bin-hadoop2.7 我参考过的博客   wi

scala

sqoop导入和导出数据操作(保姆级教程)(sqoop导入和导出数据的基本过程)

西园 西园 发表于2024-04-29 浏览9040 评论0
导入: 一、将mysql数据库中的表数据导入到HDFS 表数据和格式如下: 1、首先先在hdfs中创建目录,用于导入后存放数据hdfs dfs -mkdir /sqooptesthdfs dfs -mkdir /sqooptest/demo1 使用sqoop import 命令将MySQL中的表导入到hdfs中 sqoop import \ --connect jdbc:mysql://nnode1:3306/stu \ --username root \ --password 1231

架构

Hive架构简述及工作原理(hive原理与架构)

只沾花不惹草 只沾花不惹草 发表于2024-04-28 浏览5147 评论0
一、什么是Hive?   Hive是基于Hadoop的一个数据仓库管理工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL(HQL)查询功能。本质是将SQL转换为MapReduce程序(默认)。   直接使用Hadoop MapReduce处理数据所面临的问题: 学习成本高,MapReduce实现复杂查询功能开发难度大,使用Hive接口采用类SQL语法,提供快速开发的能力避免了去写MapReduce,减少开发人员的学习成本功能。 二、Hive架构及组件 用户接口:包括

架构

【深入浅出 Yarn 架构与实现】2-3 Yarn 基础库 - 服务库与事件库(yarn基本架构)

曜杨 曜杨 发表于2024-04-28 浏览4419 评论0
一个庞大的分布式系统,各个组件间是如何协调工作的?组件是如何解耦的?线程运行如何更高效,减少阻塞带来的低效问题?本节将对 Yarn 的服务库和事件库进行介绍,看看 Yarn 是如何解决这些问题的。 一、服务库 一)简介 对于生命周期较长的对象,Yarn 采用基于服务的模型对其进行管理,有以下几个特点: 基于状态管理:分为 4 个状态:NOTINITED(被创建)、INITED(已初始化)、 STARTED(已启动)、STOPPED(已停止)。 服务状态的变化会触发其他的操作。 可通

MYSQL教程

sqoop把hive中的数据导入mysql(sqoop导入数据到hive)

AB模板网 AB模板网 发表于2024-04-28 浏览5554 评论0
使用sqoop将hive中的数据导入mysql中 记录简单案例 首先开启集群: start-all.sh 在hive中建库建表,并插入一条数据来为自己做实验: 验证一下,是否插入成功: 在mysql中建表,并且要与hive中传过来的数据字段相对应: 建表后为空: 用sqoop将hive中的数据传到mysql中: export 导出数据, –connect 连接数据库的参数, –username root 是指用户名为root, test mysql中使用的数据库的库名, –

scala

大数据之Scala变量和数据类型完整使用 (第二章)(scala变量的定义)

天上的小小 天上的小小 发表于2024-04-28 浏览4675 评论0
一、注释 Scala 注释使用和 Java 完全一样。 注释是一个程序员必须要具有的良好编程习惯。将自己的思想通过注释先整理出来,再 用代码去体现。 1)基本语法 (1)单行注释:// (2)多行注释:/* / (3)文档注释:/* */ 2)案例实操 package com.atguigu.chapter02 object TestNotes { def main(args: Array[String]): Unit = { //(1)单行

scala

添加spark的相关依赖和打包插件(第六弹)(spark插件源)

花若飞絮花曾落 花若飞絮花曾落 发表于2024-04-28 浏览4070 评论0
目录 添加spark的相关依赖和打包插件 步骤1 打开pom.xmlà添加的以下依赖,点击右下角enable auto-import自动下载 步骤2 右击main下的Scala文件先创建一个package并命名为cn.itcast 步骤3 创建WordCount.scala文件用于词频统计  alt+回车:选择导入包 步骤3 创建WordCount.scala文件用于词频统计  alt+回车:选择导入包 注意:需要事先在D盘创建word文件夹下的w

scala

windows下安装spark + hadoop + pyspark(windows下安装redis)

☔︎ ☔︎ 发表于2024-04-27 浏览6960 评论0
选择版本 spark依赖的是hadoop和Java spark、hadoop和python的适配 hadoop2.x都是基于java7开发的 hadoop3.x是基于java8开发的https://spark.apache.org/downloads.html 里面有各种依赖的关系 第二种方法:下载:在spark官网的最后一行蓝色,有老版本下载的链接 文件有两个: spark大小大概200M,小的不是 如果带hadoopX版本,才是能够hadoop执行的。 hadoop是执行had