×

scala

【分布式机器学习】基本知识

我 发表于2024-06-19 浏览5518 评论0
从今天开始正式入门【分布式机器学习】啦~~~ 由于研一的科研项目中我的课题是 一、梯级水电站海量多源异构数据高效存储方法 二、提出梯级水电站时空大数据的并行处理框架 所以我就一直跟并行处理框架过不去,各种资料搜关键词也是搜“并行处理”,没有想到分布式这一层。经过一段时间的研究之后发现【分布式机器学习】这个领域的研究成果还是挺多的,所以打算正式入门。 一、书籍推荐 《分布式机器学习——算法、理论与实践》 作者:刘铁岩 陈薇 王太峰 高飞 本书对分布式机器学习这一领域进行了全

scala

Spark综合学习笔记(二十九)SparkSQL分布式SQL引擎(spark sql开发)

小海 小海 发表于2024-06-19 浏览6722 评论0
学习致谢 https://www.bilibili.com/video/BV1Xz4y1m7cv?p=66 说明 Hive的SQL交互方式方式1∶交互式命令行(CLI)· bin/hive,编写SQL语句及DDL语句方式2: 启动服务HiveServer2 (Hive ThriftServer2) ·将Hive当做一个服务启动(类似MySQL数据库,启动一个服务),端口为10000 ·交互式命令行,bin/beeline,CDH 版本HIVE建议使用此种方式,CLI方式过时 · 2JD

scala

Sparkstreaming

ohblue ohblue 发表于2024-06-19 浏览5261 评论0
一.springStreaming 1.概念说明: 是一个微批处理的实时计算的框架 原理:是把输入数据以某一时间间隔批量的处理,当批处理间隔缩短到秒级时,即可用于处理实时数据流 2.特点特征: 可以和spark core、sparksql等无缝集成, 支持从多种数据源获取数据, 包括kafka,Flume,Twitter、ZeroMQ、Kinesis以及TCP sockets,然后使用诸如map,reduce,join等高级函数进行复杂的算法运算,最后存储到hdfs文件系统,数据库等

scala

Spark:checkpoint介绍

杨勇 杨勇 发表于2024-06-19 浏览6235 评论0
checkpoint,是Spark提供的一个比较高级的功能。 有时候我们的Spark任务,比较复杂,从初始化RDD开始,到最后整个任务完成,有比较多的步骤,比如超过10个transformation算子。而且整个任务运行的时间也特别长,比如通常要运行1~2个小时。 在这种情况下,就比较适合使用checkpoint功能了。 因为对于特别复杂的Spark任务,有很高的风险会出现某个要反复使用的RDD因为节点的故障导致丢失,虽然之前持久化过,但是还是导致数据丢失了。那么也就是说,出现失败的时候,没有

scala

spark基于dataFrame和sparksql对hdfs文件夹下多个文件进行读、写、join等操作

myus? myus? 发表于2024-06-18 浏览8029 评论0
  本文主要介绍spark读取hdfs文本文件,并利用spark-sql进行join操作,最后将结果写入hdfs文件系统,话不多说,直接上代码。代码是基于在windows上安装的hadoop,提交到yarn上可以不加hdfs文件的根路径。 1,准备数据文件 math.txt sports.txt 2,代码实现 2.1,初始化sparkContext或者sparkSession val conf = new SparkConf().setMaster("l

scala

大数据学习计划 (大数据培训计划)

汝壹 汝壹 发表于2024-06-18 浏览5688 评论0
阶段 时间 技能 输入 输出 SQL基础 8.4-8.8 1.表关联方法和特性2.常用基础函数3.窗口函数4.常用优化策略5.hive数据存储格式及压缩格式和特点 1、hive编程指南2、SQL 必知必会 1、学习笔记2、考试 ODEON平台使用 8.4-8.8 1.sql测试方法2.workflow维护,报错如何查看3.workflow如何部署4.coordinate如何部署5.如何用金蝉平台运维odeon6.理解每一步的作用和用意 1、odeon帮助文档2、wiki资料H-od

scala

SparkStreaming 之旅

人不在地球 人不在地球 发表于2024-06-18 浏览6124 评论0
概述 Spark 流使得构建可扩展的容错流应用程序变得更加容易 Spark Streaming 用于流式数据的处理 Spark Streaming 支持的数据输入源很多,如:Kafka、Flume、Twitter、ZeroMQ和简单的TCP套接字等 数据输入后可以用 Spark 的高度抽象原语,如:map、reduce、join、window等进行运算 结果也能保存在很多地方,如HDFS,数据库等 和 Spark 基于 RDD 的概念很相似,Spark Stream

scala

在实践中学习Spark计算框架(01)(spark基于什么计算框架)

haibao haibao 发表于2024-06-18 浏览5809 评论0
第 1 章:大数据技术概述【理论篇】 1.大数据时代 · 三次信息化浪潮 信息化浪潮 发生时间 标志 解决问题 代表企业 第一次浪潮 1980年前后 个人计算机 信息处理 Inter、AMD、IBM、苹果、微软、联想、戴尔、惠普等 第二次浪潮 1995年前后 互联网 信息传输 雅虎、谷歌、阿里巴巴、百度、腾讯等 第三次浪潮 2010年前后 物联网、云计算、大数据 信息爆炸 将涌现出一批新的市场标杆企业 ·必要性: 1.存储设备容量不断增加、2.CPU处理能力大幅提升

Ruby教程

人大金仓数据库高可用集群部署教程(人大金仓数据库连接配置)

丶 发表于2024-06-18 浏览6308 评论0
【本文正在参与炫“库”行动—人大金仓有奖征文】 活动链接:https://marketing.csdn.net/p/98bd30353e7cb998b6070a89e8b91edb 前言 可用性作为数据库的重要指标之一,集群化是一种通用的解决方案,不同数据库产品的实现并不相同,实践出真知,下面就带大家一起上手,从零开始搭建一套人大金仓数据库的高可用集群。 环境准备 服务器准备 节点名称 IP 操作系统 平台 node1 X86_64 192.168.101.6

scala

Spark 数据倾斜处理(spark 解决数据倾斜)

 发表于2024-06-17 浏览7310 评论0
数据倾斜的问题优先从数据源解决,以下方法是辅助缓解: (1)spark-sql任务,可以尝试distribute by () 某个字段或者可以确定唯一维度值(某几个联合字段) (2)参考文档调优 https://blog.csdn.net/lsshlsw/article/details/52025949 (3)数据倾斜的定位方法: 选取key,对数据进行抽样,统计出现的次数,根据出现次数大小排序取出前几个 spark-shell获取数据不均衡的数据 scala>val c

分布式

hbase踩坑记---HMaster启动后不久就消失(hbase-2.2.4版本)

枫叶?飘飘 枫叶?飘飘 发表于2024-06-17 浏览7901 评论0
版本介绍: hadoop-3.1.3 hbase-2.2.4 问题简述: 在学习HBase的过程中,安装后启动,开始是可以看见HMaster进程的,但是几秒后就消失了,反复尝试了几次,都是同样的情况,也就是启动失败。 问题分析: 因为HBase与hadoop的兼容性是一个重要的问题,因此我先考虑版本问题,查阅hbase官网,如下图: 版本兼容是没有问题的,不过这个问题仍然是是使用hbase需要重点关注的。 然后,在查看自己安装流程的过程中,我发现在hbase-site.xml配置中: &