×

分布式

(大数据方向)分布式实验七:HBase数据库搭建以及常用命令(分布式数据库Hbase)

忽然一转身 忽然一转身 发表于2024-05-19 浏览4811 评论0
目录 阅读须知 本篇博客是Hbase的搭建教程以及基础Hbase语句的使用教程 一.HBase简介 二.HBASE伪分布式搭建 一.解压hbase 二.配置环境变量 三.配置 hbase-env.sh 四.配置 hbase-site.xml 五.启动HBase 三.hbase shell 四.基本任务1使用 HBase Shell 命令完成下列任务 1.创建表 2.列出信息 3.向已经创建好的表添加和删除指定的列族或列 4.清空指定表的所有记录数据 5.统计表的行

scala

bigdata_redis缓存数据库

愿林 愿林 发表于2024-05-17 浏览7500 评论0
一丶介绍redis       是一个高性能的key-value内存型数据库。       特点: 支持数据的持久化,可以将内存中的数据保存在磁盘中,重启的时候自动再次加载进行使用。 既支持key-value类型的数据操作,还提供list,set,zset,hash等数据结构的存储。 支持数据的主从备份,采用master-slave模式的主从备份。 新版3.x也支持分布式布署模式,真正实现了数据块的分布式存储与响应。 性能极高–Redis读的速度是11万次/s,写的速度是8万次/s

后端

Hadoop生态之Mapreduce(Hadoop生态)

仙客来 仙客来 发表于2024-05-15 浏览6472 评论0
今天给大家带来的是Hadoop生态中的Mapreduce,看到这里诸佬们可能就有疑惑了呢,啥是Mapreduce?小小的脑袋大大的疑惑。在上篇博客中博主使用了王者来举例子,如果把Hadoop当作王者的话,HDFS是后台存储点券数据的系统的话,那么我们今天介绍的Mapreduce就是某者用来计算优惠力度,并且计算游戏里最终到账的点券。(虽然博主不怎么充钱) 1.MapReduce概述 1.1 MapReduce定义 MapReduce是一个分布式运算程序的编程框架,是用户开发“基于H

scala

大数据常见问题:数据倾斜的原理及处理方案(大数据常见问题:数据倾斜的原理及处理方案怎么写)

一叶知秋 一叶知秋 发表于2024-05-02 浏览9003 评论0
什么是数据倾斜 Hadoop能够进行对海量数据进行批处理的核心,在于它的分布式思想,通过多台服务器(节点)组成集群,共同完成任务,进行分布式的数据处理。 理想状态下,一个任务是由集群下所有机器共同承担执行任务,每个节点承担的任务应该相近,但实际上在并行处理过程中,分配到每台节点的数据量并不是均匀的,当大量的数据分配到某一个节点时(假设10个节点,5亿数据),那么原本只需要1小时完成的工作,变成了其中9个节点不到1小时就完成了工作,而分配到了大量数据的节点,花了5个小时才完成 从最终结果来看

scala

Spark/Scala - 读取 RcFile && OrcFile(scala连接spark)

AP图网站美工游戏技术 AP图网站美工游戏技术 发表于2024-04-23 浏览4537 评论0
一.引言 上文提到了 MapReduce - 读取 OrcFile, RcFile 文件,这里通过 Java + MapReduce 实现了读取 RcFile 和 OrcFile 文件,后续又遇到 MapReduce - 同时读取 RcFile 和 OrcFile 的依赖冲突,也顺利解决,但是平常开发还是习惯 spark 所以改用 spark 实现读取 OrcFile 和 RcFile 以及 Map-Reduce 的功能。 二.读取 RcFile 前面 mr 的任务我们已经对

scala

7道RDD编程练习题(RDD编程初级实践)

零距离 零距离 发表于2024-04-23 浏览5455 评论0
公众号后台回复关键字:pyspark,获取本项目github地址。 为强化RDD编程API的使用经验,现提供一些小练习题。 读者可以使用RDD的编程API完成这些小练习题,并输出结果。 这些练习题基本可以在15行代码以内完成,如果遇到困难,建议回看上一节RDD的API介绍。 完成这些练习题后,可以查看本节后面的参考答案,和自己的实现方案进行对比。 import findspark #指定spark_home为刚才的解压路径,指定python路径 spark_home = "/U