×

分布式

OpenSearch(阿里云 opensearch)

Athey Athey 发表于2024-05-29 浏览4367 评论0
OpenSearch 1. OpenSearch插件 OpenSearch插件的前身就是Open Distro。这些插件是默认安装的。他们被安装在OPENSEARCH_HOME/plugins目录下面。这些插件很大程度上丰富了整个系统的功能,但是到目前位置,社区上的很多插件还是适配ES的,而不是OpenSearch。如果我们强行把ES上的插件搬到OpenSearch用,大概率会起不来。 2. OpenSearch集群 2.1 节点的类型 节点类型 作用 机器配置 ma

spring boot

springboot集成easy-es

悠悠然 悠悠然 发表于2024-05-29 浏览5043 评论0
Easy-Es(简称EE)是一款基于ElasticSearch(简称Es)官方提供的RestHighLevelClient打造的低码开发框架,在 RestHighLevelClient 的基础上,只做增强不做改变,为简化开发、提高效率而生。 pom引入Easy-Es依赖 <dependency> <groupId>io.github.xpc1024</groupId> <artifactId>easy-es-boot-st

scala

RDD的分区(rdd的分区方式有什么)

一个人一颗心 一个人一颗心 发表于2024-05-28 浏览5850 评论0
一、RDD分区数 分区是一个偏物理层的概念,也是RDD并行计算的单位 数据在RDD内部被切分为多个子集合,每个子集合可以被认为是一个分区,运算逻辑最小会被应用在每一个分区上,每个分区是由一个单独的任务来运行的,所以分区数越多,整个应用的并行度也会越高 获取RDD分区数目方式:pyspark.RDD.getNumPartitions 二、RDD分区的数据决定因素 RDD分区的原则是使得分区的个数尽量等于集群中的CPU核心(core)数目,这样可以充分利用CPU的计算资源; 在实际中为

scala

Spark :: 大画Spark(1)——Spark的Dispatcher原理

25013415 25013415 发表于2024-05-28 浏览3561 评论0
背景 在Spark的网络环境中,Netty是进行RPC通讯的底层通讯模块,在Netty之上,Spark构建起了一整套的通信发送与接收处理机制,这个机制涉及到了Spark的Dispatcher,MessageLoop,Endpoint,Inbox等一系列的概念和关系,理解诸如这些概念和关系是很多Spark初学者的挡路石,为了能让初学者以及一直使用Spark的同学深入了解这些概念和内容,我准备写一个专题,叫做《大画Spark》,通过一系列相视的生活中的例子,大家都能听懂的常识,以及生动的插画(这

爬虫

数据分析之爬虫实例-获取天气AQI数据-附python代码

刀贱贱 刀贱贱 发表于2024-05-28 浏览4715 评论0
数据分析与数据挖掘的步骤流程: 1、明确目标。首先要熟悉业务背景,了解业务背景后,才能明确目标。如去分析电商业务流量与转化率的关系,广告业务如何确定单次点击竞价增加点击率和有效访问率,产品业务根据PV,UV,用户留存增长ARPU(利润或者金额),供应链业务:如工厂,饭店的订货量预测,营销业务:根据已有数据如何提高ROI(投资回报率)及金融行业的风险控制等等。 2、数据搜集。哪些数据会影响问题答案,然后搜集相关的数据。如网上已有数据,爬虫,API。 3、数据清洗。数据质量分析,缺失值(空值)

MSSQL教程

Flink-CDC实践(含实操步骤与截图)(flink cdc 窗口)

dede58织梦模板 dede58织梦模板 发表于2024-05-28 浏览6632 评论0
前言 本文主要对B站的Flink视频进行学习并实操,将相关重点进行记录,当做自己的学习笔记,以便快速上手进行开发。 Flink CDC 1. CDC简介 1.1 什么是 CDC CDC 是 Change Data Capture(变更数据获取)的简称。核心思想是,监测并捕获数据库 的变动(包括数据或数据表的插入、更新以及删除等),将这些变更按发生的顺序完整记录 下来,写入到消息中间件中以供其他服务进行订阅及消费。 1.2 CDC 的种类 CDC 主要分为基于查询和

爬虫

大数据之足球盘口赔率凯利必发数据采集爬虫(足球盘口凯利指数)

wangxixigz wangxixigz 发表于2024-05-28 浏览5262 评论0
这期主要介绍足球类数据的获取即爬虫相关知识,主要是针对足球/体育类网站平台都爬虫工程师。如果您是单纯的进行数据分析,利用赔率、亚盘、凯利、必发等各指标找出与赛果的关系,可以通过网络获得即可,不要先消耗大量的时间和精力去做爬虫,因为即便你爬到了数据,预测结果分析完后也不一定有任何帮助和启示。作为足球数据类采集的思路: 1. 导入库 import re, requests, time, random, pymysql, os #主要为请求类,连接数据库类,时间模块 import pandas