首页 | big data 第14页 PyQt4 PySide 输入对话框 脚本之家 Hey there! Quick question that's entirel... ... 还有 59 人发表了评论 加入8876人围观
分布式 OpenSearch(阿里云 opensearch) Athey 发表于2024-05-29 浏览4367 评论0 OpenSearch 1. OpenSearch插件 OpenSearch插件的前身就是Open Distro。这些插件是默认安装的。他们被安装在OPENSEARCH_HOME/plugins目录下面。这些插件很大程度上丰富了整个系统的功能,但是到目前位置,社区上的很多插件还是适配ES的,而不是OpenSearch。如果我们强行把ES上的插件搬到OpenSearch用,大概率会起不来。 2. OpenSearch集群 2.1 节点的类型 节点类型 作用 机器配置 ma
spring boot springboot集成easy-es 悠悠然 发表于2024-05-29 浏览5043 评论0 Easy-Es(简称EE)是一款基于ElasticSearch(简称Es)官方提供的RestHighLevelClient打造的低码开发框架,在 RestHighLevelClient 的基础上,只做增强不做改变,为简化开发、提高效率而生。 pom引入Easy-Es依赖 <dependency> <groupId>io.github.xpc1024</groupId> <artifactId>easy-es-boot-st
scala RDD的分区(rdd的分区方式有什么) 一个人一颗心 发表于2024-05-28 浏览5850 评论0 一、RDD分区数 分区是一个偏物理层的概念,也是RDD并行计算的单位 数据在RDD内部被切分为多个子集合,每个子集合可以被认为是一个分区,运算逻辑最小会被应用在每一个分区上,每个分区是由一个单独的任务来运行的,所以分区数越多,整个应用的并行度也会越高 获取RDD分区数目方式:pyspark.RDD.getNumPartitions 二、RDD分区的数据决定因素 RDD分区的原则是使得分区的个数尽量等于集群中的CPU核心(core)数目,这样可以充分利用CPU的计算资源; 在实际中为
scala Spark :: 大画Spark(1)——Spark的Dispatcher原理 25013415 发表于2024-05-28 浏览3561 评论0 背景 在Spark的网络环境中,Netty是进行RPC通讯的底层通讯模块,在Netty之上,Spark构建起了一整套的通信发送与接收处理机制,这个机制涉及到了Spark的Dispatcher,MessageLoop,Endpoint,Inbox等一系列的概念和关系,理解诸如这些概念和关系是很多Spark初学者的挡路石,为了能让初学者以及一直使用Spark的同学深入了解这些概念和内容,我准备写一个专题,叫做《大画Spark》,通过一系列相视的生活中的例子,大家都能听懂的常识,以及生动的插画(这
爬虫 数据分析之爬虫实例-获取天气AQI数据-附python代码 刀贱贱 发表于2024-05-28 浏览4715 评论0 数据分析与数据挖掘的步骤流程: 1、明确目标。首先要熟悉业务背景,了解业务背景后,才能明确目标。如去分析电商业务流量与转化率的关系,广告业务如何确定单次点击竞价增加点击率和有效访问率,产品业务根据PV,UV,用户留存增长ARPU(利润或者金额),供应链业务:如工厂,饭店的订货量预测,营销业务:根据已有数据如何提高ROI(投资回报率)及金融行业的风险控制等等。 2、数据搜集。哪些数据会影响问题答案,然后搜集相关的数据。如网上已有数据,爬虫,API。 3、数据清洗。数据质量分析,缺失值(空值)
MSSQL教程 Flink-CDC实践(含实操步骤与截图)(flink cdc 窗口) dede58织梦模板 发表于2024-05-28 浏览6632 评论0 前言 本文主要对B站的Flink视频进行学习并实操,将相关重点进行记录,当做自己的学习笔记,以便快速上手进行开发。 Flink CDC 1. CDC简介 1.1 什么是 CDC CDC 是 Change Data Capture(变更数据获取)的简称。核心思想是,监测并捕获数据库 的变动(包括数据或数据表的插入、更新以及删除等),将这些变更按发生的顺序完整记录 下来,写入到消息中间件中以供其他服务进行订阅及消费。 1.2 CDC 的种类 CDC 主要分为基于查询和
spring boot Elasticsearch:Top metrics 聚合(elasticsearch tophits聚合) 海滩长颈鹿 发表于2024-05-28 浏览5644 评论0 top_metrics 聚合从文档中选择具有最大或最小排序值的 metrics。 例如,这会获取文档中 s 字段的最大值所对应的 m 字段的值: POST /test/_bulk?refresh {"index":{}} {"s":1,"m":3.1415} {"index":{}} {"s":2,"m":1} {"index":{}} {"s":3,"m":2.71828} POST /test/_search?filter_path=aggregations { "aggs": {
scala kakfa 3.0 创建topic流程(源码)(kafka客户端创建topic) leofree 发表于2024-05-28 浏览8402 评论0 1、通过create命令到组装创建topic需要的数据流程(scala部分) 首先创建kafka topic的命令是下面这个 bin/kafka-topics.sh --bootstrap-server broker_host:port --create --topic my_topic_name \--partitions 20 --replication-factor 3 --config x=y --bootstrap-server 某一台kafka服务器地址和端口--c
scala Flink安装及启动(flink 启动) ゞ丶庸人自扰 发表于2024-05-28 浏览5771 评论0 1、官网下载Flink ## 官网地址 $ Apache Flink: Downloads ## 下载地址 $ wget http://mirror.bit.edu.cn/apache/flink/flink-1.9.2/flink-1.9.2-bin-scala_2.11.tgz 文件保存在/root/soft目录下 2、安装 $ cd /root/soft $ sudo tar -zxf flink-1.9.2-bin-scala_2.11.tgz 3、添加环境变量 $ v
scala 大数据之Scala 泛型 完整使用(第十一章)(scala泛型方法) test123 发表于2024-05-28 浏览6015 评论0 一、协变和逆变 1)语法 class MyList[+T]{ //协变 } class MyList[-T]{ //逆变 } class MyList[T] //不变、 2)说明 协变:Son 是 Father 的子类,则 MyList[Son] 也作为 MyList[Father]的“子类”。 逆变:Son 是 Father 的子类,则 MyList[Son]作为 MyList[Father]的“父类”。 不变:Son 是 Father 的子类,则 MyList[Fath
爬虫 大数据之足球盘口赔率凯利必发数据采集爬虫(足球盘口凯利指数) wangxixigz 发表于2024-05-28 浏览5262 评论0 这期主要介绍足球类数据的获取即爬虫相关知识,主要是针对足球/体育类网站平台都爬虫工程师。如果您是单纯的进行数据分析,利用赔率、亚盘、凯利、必发等各指标找出与赛果的关系,可以通过网络获得即可,不要先消耗大量的时间和精力去做爬虫,因为即便你爬到了数据,预测结果分析完后也不一定有任何帮助和启示。作为足球数据类采集的思路: 1. 导入库 import re, requests, time, random, pymysql, os #主要为请求类,连接数据库类,时间模块 import pandas