×

未命名

Hive数据仓库应用课后题及答案

sgq5136 sgq5136 发表于2024-05-09 浏览6129 评论0
《Hive数据仓库应用》课后习题  Hive简介 一、填空题 1.数据仓库的目的是构建面向分析的集成化数据环境。 2.Hive是基于Hadoop的一个数据仓库工具。 3.数据仓库分为3层,即源数据层、数据应用层和数据仓库层。 4.数据仓库层可以细分为中间层、明细层和业务层。 5.在数据仓库建设中,一般会围绕着星状模型和雪花状模型来设计数据模型。 二、判断题 1.数据仓库是以业务流程来划分应用程序和数据库。    ( × ) 2.数据仓库中的数据一般是很少更新的。     

scala

hive、spark(hive,spark,flink)

水 发表于2024-05-01 浏览4656 评论0
7下列关于Storm设计思想,描述有误的是?(1.5分)0.0 分 A、Topology里面的每个处理组件(Spout或Bolt)都包含处理逻辑, 而组件之间的连接则表示数据流动的方向 B、 Storm将Spouts和Bolts组成的网络抽象成Topology C、Storm认为每个Stream都有一个源头,并把这个源头抽象为Spout D、 Storm将Streams的状态转换过程抽象为Spout 正确答案: D 我的答案:C 8下列关于Storm的描述,有误的是?(1.5分

scala

大数据集群配置(电)(大数据集群硬件要求)

Ai潼泺 Ai潼泺 发表于2024-05-01 浏览3585 评论0
一、虚拟机配置 网络配置 记录一下三个信息,用作配置IPADDR(ip地址)、NETMASK(子网掩码)、GATEWAY(网关) 上面是ip和掩码,在网络编辑器里面的net模式查看自己的网关: 输入 vi /etc/sysconfig/network-scripts/ifcfg-ens33 做如下修改 修改完成以后,重启网卡 service network restart 此时,无论是ping本地,还是ping百度,都可以连上网 设置中文输入法 在设置里面

架构

Hive架构简述及工作原理(hive原理与架构)

只沾花不惹草 只沾花不惹草 发表于2024-04-28 浏览5147 评论0
一、什么是Hive?   Hive是基于Hadoop的一个数据仓库管理工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL(HQL)查询功能。本质是将SQL转换为MapReduce程序(默认)。   直接使用Hadoop MapReduce处理数据所面临的问题: 学习成本高,MapReduce实现复杂查询功能开发难度大,使用Hive接口采用类SQL语法,提供快速开发的能力避免了去写MapReduce,减少开发人员的学习成本功能。 二、Hive架构及组件 用户接口:包括

MYSQL教程

sqoop把hive中的数据导入mysql(sqoop导入数据到hive)

AB模板网 AB模板网 发表于2024-04-28 浏览5554 评论0
使用sqoop将hive中的数据导入mysql中 记录简单案例 首先开启集群: start-all.sh 在hive中建库建表,并插入一条数据来为自己做实验: 验证一下,是否插入成功: 在mysql中建表,并且要与hive中传过来的数据字段相对应: 建表后为空: 用sqoop将hive中的数据传到mysql中: export 导出数据, –connect 连接数据库的参数, –username root 是指用户名为root, test mysql中使用的数据库的库名, –

MYSQL教程

基于Python-sqlparse的SQL表血缘追踪解析实现

热心王友 热心王友 发表于2024-04-27 浏览3779 评论0
目录 前言 一、主线任务 1.数据治理 2.血缘追踪 3.SQL表血缘 二、实现过程 1.目标效果 2.代码实现 1.功能函数识别 2.SQL标准格式  3.解析AST树 4.最终效果: 点关注,防走丢,如有纰漏之处,请留言指教,非常感谢 前言 之前我在两篇SQLparse的开源库解析中就说过自己在寻找在python编程内可行的SQL血缘解析,JAVA去解析Hive的源码实践的话我还是打算放到后期来做,先把Python能够实现的先实现完。主要是HiveSQL