big data 第7页 - 星花园站长资源网

数据仓库

Заголовок: Юрист по купле продаже недвиж...

...

还有 60 人发表了评论加入7064人围观

scala

【分布式机器学习】基本知识

我 发表于2024-06-19 浏览5518 评论0

从今天开始正式入门【分布式机器学习】啦~~~ 由于研一的科研项目中我的课题是一、梯级水电站海量多源异构数据高效存储方法二、提出梯级水电站时空大数据的并行处理框架所以我就一直跟并行处理框架过不去，各种资料搜关键词也是搜“并行处理”，没有想到分布式这一层。经过一段时间的研究之后发现【分布式机器学习】这个领域的研究成果还是挺多的，所以打算正式入门。一、书籍推荐《分布式机器学习——算法、理论与实践》作者：刘铁岩陈薇王太峰高飞本书对分布式机器学习这一领域进行了全

scala

Spark综合学习笔记（二十九）SparkSQL分布式SQL引擎（spark sql开发）

小海 发表于2024-06-19 浏览6722 评论0

学习致谢 https://www.bilibili.com/video/BV1Xz4y1m7cv?p=66 说明 Hive的SQL交互方式方式1∶交互式命令行（CLI)· bin/hive，编写SQL语句及DDL语句方式2: 启动服务HiveServer2 (Hive ThriftServer2) ·将Hive当做一个服务启动(类似MySQL数据库，启动一个服务)，端口为10000 ·交互式命令行，bin/beeline，CDH 版本HIVE建议使用此种方式，CLI方式过时 · 2JD

scala

Sparkstreaming

ohblue 发表于2024-06-19 浏览5261 评论0

一.springStreaming 1.概念说明: 是一个微批处理的实时计算的框架原理:是把输入数据以某一时间间隔批量的处理，当批处理间隔缩短到秒级时，即可用于处理实时数据流 2.特点特征: 可以和spark core、sparksql等无缝集成, 支持从多种数据源获取数据, 包括kafka,Flume,Twitter、ZeroMQ、Kinesis以及TCP sockets,然后使用诸如map,reduce,join等高级函数进行复杂的算法运算,最后存储到hdfs文件系统,数据库等

scala

Spark安装保姆级教学（spark安装详细教程）

snkqq123 发表于2024-06-19 浏览6216 评论0

IDEA集成Scala 官网下载scalahttps://www.scala-lang.org/download/all.html 官网下载sparkhttps://spark.apache.org/downloads.html 下载scala插件配置scala scala代码提示配置 Spark部署 Spark Local模式部署解压spark tar -zxvf spark-3.0.0-bin-hadoop3.2.

scala

Spark：checkpoint介绍

杨勇 发表于2024-06-19 浏览6235 评论0

checkpoint，是Spark提供的一个比较高级的功能。有时候我们的Spark任务，比较复杂，从初始化RDD开始，到最后整个任务完成，有比较多的步骤，比如超过10个transformation算子。而且整个任务运行的时间也特别长，比如通常要运行1~2个小时。在这种情况下，就比较适合使用checkpoint功能了。因为对于特别复杂的Spark任务，有很高的风险会出现某个要反复使用的RDD因为节点的故障导致丢失，虽然之前持久化过，但是还是导致数据丢失了。那么也就是说，出现失败的时候，没有

scala

spark基于dataFrame和sparksql对hdfs文件夹下多个文件进行读、写、join等操作

myus? 发表于2024-06-18 浏览8029 评论0

本文主要介绍spark读取hdfs文本文件，并利用spark-sql进行join操作，最后将结果写入hdfs文件系统，话不多说，直接上代码。代码是基于在windows上安装的hadoop，提交到yarn上可以不加hdfs文件的根路径。 1，准备数据文件 math.txt sports.txt 2，代码实现 2.1，初始化sparkContext或者sparkSession val conf = new SparkConf().setMaster("l

scala

大数据学习计划（大数据培训计划）

汝壹 发表于2024-06-18 浏览5688 评论0

阶段时间技能输入输出 SQL基础 8.4-8.8 1.表关联方法和特性2.常用基础函数3.窗口函数4.常用优化策略5.hive数据存储格式及压缩格式和特点 1、hive编程指南2、SQL 必知必会 1、学习笔记2、考试 ODEON平台使用 8.4-8.8 1.sql测试方法2.workflow维护，报错如何查看3.workflow如何部署4.coordinate如何部署5.如何用金蝉平台运维odeon6.理解每一步的作用和用意 1、odeon帮助文档2、wiki资料H-od

scala

SparkStreaming 之旅

人不在地球 发表于2024-06-18 浏览6124 评论0

概述 Spark 流使得构建可扩展的容错流应用程序变得更加容易 Spark Streaming 用于流式数据的处理 Spark Streaming 支持的数据输入源很多，如：Kafka、Flume、Twitter、ZeroMQ和简单的TCP套接字等数据输入后可以用 Spark 的高度抽象原语，如：map、reduce、join、window等进行运算结果也能保存在很多地方，如HDFS，数据库等和 Spark 基于 RDD 的概念很相似，Spark Stream

scala

在实践中学习Spark计算框架（01）（spark基于什么计算框架）

haibao 发表于2024-06-18 浏览5809 评论0

第 1 章：大数据技术概述【理论篇】 1.大数据时代 · 三次信息化浪潮信息化浪潮发生时间标志解决问题代表企业第一次浪潮 1980年前后个人计算机信息处理 Inter、AMD、IBM、苹果、微软、联想、戴尔、惠普等第二次浪潮 1995年前后互联网信息传输雅虎、谷歌、阿里巴巴、百度、腾讯等第三次浪潮 2010年前后物联网、云计算、大数据信息爆炸将涌现出一批新的市场标杆企业 ·必要性： 1.存储设备容量不断增加、2.CPU处理能力大幅提升

Ruby教程

人大金仓数据库高可用集群部署教程（人大金仓数据库连接配置）

丶 发表于2024-06-18 浏览6308 评论0

【本文正在参与炫“库”行动—人大金仓有奖征文】活动链接：https://marketing.csdn.net/p/98bd30353e7cb998b6070a89e8b91edb 前言可用性作为数据库的重要指标之一，集群化是一种通用的解决方案，不同数据库产品的实现并不相同，实践出真知，下面就带大家一起上手，从零开始搭建一套人大金仓数据库的高可用集群。环境准备服务器准备节点名称 IP 操作系统平台 node1 X86_64 192.168.101.6

scala

Spark 数据倾斜处理（spark 解决数据倾斜）

发表于2024-06-17 浏览7310 评论0

数据倾斜的问题优先从数据源解决，以下方法是辅助缓解：（1）spark-sql任务，可以尝试distribute by () 某个字段或者可以确定唯一维度值（某几个联合字段）（2）参考文档调优 https://blog.csdn.net/lsshlsw/article/details/52025949 （3）数据倾斜的定位方法：选取key，对数据进行抽样，统计出现的次数，根据出现次数大小排序取出前几个 spark-shell获取数据不均衡的数据 scala>val c

分布式

hbase踩坑记---HMaster启动后不久就消失（hbase-2.2.4版本）

枫叶?飘飘 发表于2024-06-17 浏览7901 评论0

版本介绍： hadoop-3.1.3 hbase-2.2.4 问题简述：在学习HBase的过程中，安装后启动，开始是可以看见HMaster进程的，但是几秒后就消失了，反复尝试了几次，都是同样的情况，也就是启动失败。问题分析：因为HBase与hadoop的兼容性是一个重要的问题，因此我先考虑版本问题，查阅hbase官网,如下图：版本兼容是没有问题的，不过这个问题仍然是是使用hbase需要重点关注的。然后，在查看自己安装流程的过程中，我发现在hbase-site.xml配置中： &

« 2023年9月 »
一	二	三	四	五	六	日
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30

控制面板

您好，欢迎到访网站！
查看权限

网站分类

最近发表

最新留言

文章归档

2022年2月 (2538)

友情链接