×

scala

2.Spark 学习成果转化—机器学习—使用Spark ML的逻辑回归来预测乳腺癌 (二元分类问题)

moot90909 moot90909 发表于2024-05-29 浏览3743 评论0
第2例 使用Spark ML的逻辑回归来预测乳腺癌 这是一个 二元分类 问题, 也就是预测出来的结果只有两种, 是恶性肿瘤, 或是良性肿瘤。 有关 Spark ML 的介绍与知识点请参考: Spark ML学习笔记—Spark MLlib 与 Spark ML。 2.1 数据准备 2.1.1 数据集文件准备 (1) 该项目并为使用数据库当做数据源,而是直接将数据文件放在项目目录中, 这是一个结构化的简化数据集。 (2) 本项目使用的数据集是: 来自 UC

分布式

Hadoop高可用集群搭建(hadoop高可用集群搭建参考)

?? ?? 发表于2024-05-29 浏览4677 评论0
一、集群节点分布。 三个服务器组成一个Zookeeper集群。node-01和node-02作为集群的NameNode,需要运行ZKFC来监控NameNode的健康状态。 二、hadoop高可用集群 (1)先搭建普通的hadoop集群。  (2)修改core-site.xml文件。             该文件是Hadoop的核心配置文件,配置HDFS地址、端口号,以及临时文件 目录。打开该配置文件,添加如下配置内容。 zookeeper地址就是你的三台主机名 cd /ex

scala

kafka(kafka工作原理)

天上的小小 天上的小小 发表于2024-05-29 浏览4793 评论0
1.概念 一种高吞吐量的分布式、支持分区的(partition)、多副本的(replication),基于zookeeper协调的消息系统。 Message 消息数据,消息队列MQ Broker 集群中服务器统称,中间人释义 Topic 消息的类别 Partition 每个Partition都有3个副本 Segment 一个Partition有多个Segment,分Segment管理减少单个文件太大的问题,有index索引能方便更快速定位 Producer 发布消息到kafka brok

scala

02环境搭建(环境搭建与测试)

wkpsun wkpsun 发表于2024-05-29 浏览6154 评论0
大家好,我是一条~ 5小时推开Spark的大门,第二小时,带大家搭建开发环境。 主要分两步, Spark的安装 Scala环境的搭建 话不多说,动起来! Spark的安装 Spark是基于Scala语言编写的,需要运行在JVM上,运行环境Java7以上,本文使用Java8,Centos7。 用Python也是可以的,但本教程不详细讲。 1.下载Spark 我使用的是腾讯云的服务器,没有的同学用虚拟机也是可以的,Win和Mac如何安装虚拟机不再赘述,CSDN有

scala

Spark课程设计——电影推荐系统

wkpsun wkpsun 发表于2024-05-29 浏览7010 评论0
题目所需数据集及相应信息描述: 数据集: 1、用户评分数据集ratings.dat:包含了大量用户的历史评分数据。 2、样本评分数据集personalRatings.dat:包含了少数几个用户的个性化评分数据,这些数据反映了某个用户的个性化观影喜好。 3、电影数据集movies.dat:包含了每部电影的相关信息。 注意: 之后依次使用数据集1~3表示上述数据集 数据集结构如下: 1、用户ID::电影ID::评分::时间戳 2、用户ID::电影ID::评分::时间戳 3、电影ID::电影名称::电

scala

Spark DataFrame 的创建和保存

似水流年 似水流年 发表于2024-05-29 浏览5455 评论0
前言 DataFrame是Spark中对带模式(schema)行列数据的抽象。DateFrame广泛应用于使用SQL处理大数据的各种场景。 DataFrame 创建 法一 、从不同类型的文件中加载数据创建DataFrame,spark.read 操作 spark.read.json(“testJson.json”) 或者spark.read.format(“json”).load(“testJson.json”) json文件 {"name":"min","age":20,} {"

scala

Scala基础语法入门(五)Scala循环控制第二篇(scala循环语句)

曜杨 曜杨 发表于2024-05-29 浏览6003 评论0
🙆‍♂️🙆‍♂️ 写在前面 ​🏠​ 个人主页:csdn春和 📚 推荐专栏:更多专栏尽在主页!  JavaWeb专栏(从入门到实战超详细!!!)  SSM专栏 (更新中…) ​📖​ 本期文章:Scala基础语法入门(五)Scala循环控制第二篇 如果对您有帮助还请三连支持,定会一 一回访!🙋🏻‍♂️ 📝 写在前面 Scala循环控制结构之While循环和do while循环 While和do while循环 1、while循环 基本语句: 循环变量

分布式

第3.2章:StarRocks数据导入--Stream Load

过往· 过往· 发表于2024-05-29 浏览8559 评论0
一、环境准备 Stream Load可以说是StarRocks最为核心的导入方式,StarRocks的主要导入方式例如Routine Load、Flink Connector、DataX StarRocksWriter等,底层实现都是基于Stream Load的思想,所以我们着重介绍。 Stream Load是由用户发送HTTP请求将本地文件或数据流导入至StarRocks中的导入方式,其本身不依赖其他组件。Stream Load支持导入本地数据文件(csv、txt等)和json文件,建议单

rabbitmq

Kafka--消息丢失--原因/解决方案/零丢失的配置(kafka消息丢失情况)

Calm Calm 发表于2024-05-29 浏览9819 评论0
原文网址:Kafka--消息丢失--原因/解决方案/零丢失的配置_IT利刃出鞘的博客-CSDN博客 简介         本文介绍Kafka什么时候消息会丢失、保证消息不丢失的解决方案、消息零丢失的配置。         Kafka的消息丢失是消息异常中的一种。其他异常还有:消息重复、顺序性、消息堆积等。本文只介绍消息丢失这种消息异常。         Kafka消息在生产者、Broker、消费者 都可能丢失。 生产者丢失消息 情景1:消息太大 描述 消息大小超过Broker的m

scala

spark 笔记(spark笔记)

xunfish xunfish 发表于2024-05-29 浏览4714 评论0
提交任务 spark 工作节点 包含 master node, workNode ; 通过 RpcEndpoint 实现节点间的通信, RpcEndpoint::receive 是 处理消息的入口函数; Executor 是work node 的处理 task的 线程池; 1 SparkSubmit 通过 RestSubmissionClient 向master 提交spark任务 2 master::receive 处理消息, 接受到 RegisterApplication 消息, 调度

scala

StreamX 1.2.3 正式发布, 唯快不破,支持 Flink 1.15 诸多更新来袭

咿呀? 咿呀? 发表于2024-05-29 浏览4842 评论0
亲爱的社区小伙伴们,我们很高兴地宣布,StreamX 今天迎来了 1.2.3 Release 版本的正式发布!本次增加了诸多新特性,修复了一些 bug ,对 StreamX 的易用性、稳定性等方面进行了加强,欢迎大家下载使用!  1. 重要更新 在 1.2.3 版本中,StreamX 支持了 最新的 Apache Flink 1.15.0 ,在使用上还是一如既往的简洁丝滑。同时支持了 Scala 2.11 / 2.12 从此可以自由的选择 Scala、重新划分了 Datas

分布式

OpenSearch(阿里云 opensearch)

Athey Athey 发表于2024-05-29 浏览4367 评论0
OpenSearch 1. OpenSearch插件 OpenSearch插件的前身就是Open Distro。这些插件是默认安装的。他们被安装在OPENSEARCH_HOME/plugins目录下面。这些插件很大程度上丰富了整个系统的功能,但是到目前位置,社区上的很多插件还是适配ES的,而不是OpenSearch。如果我们强行把ES上的插件搬到OpenSearch用,大概率会起不来。 2. OpenSearch集群 2.1 节点的类型 节点类型 作用 机器配置 ma