flume - 星花园站长资源网

复杂WordCount案例 1）方式一 object TestWordCount { def main(args: Array[String]): Unit = { // 第一种方式（不通用） val tupleList = List(("Hello Scala Spark World ", 4), ("Hello Scala Spark", 3), ("Hello Scala", 2), ("Hello", 1)) val str

架构

大数据项目之电商数仓、日志采集Flume、source、channel、 sink、Kafka的三个架构

zhiu2020 发表于2024-04-16 浏览3260 评论0

4. 用户行为数据采集模块 4.3 日志采集Flume 4.3.1 Kafka的三个架构 4.3.1.1 source taildir source：可以读取文件的数据，实时的读取文件的数据，并且支持断点续传 avro source ：是在Flume之间互相传输的一般配合avro sink，经常使用在Flume做成拓扑结构的时候 nc source ：接收网络端口的 exec source：可以读取文件的数据，实时的读取文件的数据，并且不支持断点续传，一般没有人用 spo

mysql

大数据就业生就业信息分析可视化（大数据就业数据分析）

夏沫浅笑 发表于2024-04-15 浏览8810 评论0

摘要本文利用Hadoop+Hive技术分析就业生毕业后就业信息,对所包含职业、岗位、薪资、所在城市、行业类别等数据信息进行模拟,分析与处理,提取出匹配到的目标数据并将其归类化处理.得出各大城市就业生就业情况数据,为大数据时代应聘人员及高校制定人才培养方案提供数据参考. 关键词：就业；就业生；大数据第1章引言 1.1 目的教育部发文，今年高校毕业生超千万，就业形势严峻内卷现状加剧，2022应届生超千万，蓝领或成就业新风口超千万应届毕业生，加剧就业

tomcat

大数据案例--网站流量项目（中）（大数据平台案例）

修无生 发表于2024-04-13 浏览4777 评论0

目录一、Hive做离线批处理 1、实现步骤 ①、启动hadoop，启动hive ②、在hive下创建weblog库，并使用 ③、创建外部表管理数据 ④、为总表添加当天分区数据 ⑤、建立数据清洗表，用于清洗出业务所需的字段。 ⑥、业务处理 ⑦、创建业务表并插入数据 ⑧、从清洗表查询得到当天的统计指标，插入到业务表中 ⑨、利用Sqoop工具从HDFS上将数据导入到Mysql数据库中二、Hive的占位符与文件调用 1、概述 2、Hive文件的调用 3、Hive占位

分布式

CDH大数据平台 15Cloudera Manager Console之flume、kafka安装和配置数据采集实战(markdown新版)

renhai 发表于2024-04-12 浏览4460 评论0

💖个人主页：@与自己作战💯作者简介：CSDN@博客专家、CSDN@大数据领域优质创作者、CSDN@内容合伙人、阿里云@专家博主🆘希望大佬们多多支持，携手共进📝 如果文章对你有帮助的话，欢迎评论💬点赞👍收藏📂加关注⛔如需要支持请私信我，💯必支持一、kafka配置(cdh-master-v01) 1、kafka创建topic kafka-topics --zookeeper cdh-client-v01.yunes.com:2181,cdh-master-v01.

scala

RDD编程实验（rdd编程实验心得）

办公资源 发表于2024-04-11 浏览6535 评论0

RDD编程初级实践基于《Spark编程基础（Scala版）》前言前面已经基于docker搭建好spark集群，集群为一台master和两台slave，主机为windows系统，集群搭建在linux下。一、实验目的 1.熟悉Spark的RDD基本操作及键值对操作； 2.熟悉使用RDD编程解决实际具体问题的方法。二、实验内容和要求 1.spark-shell交互式编程 2.编写独立应用程序实现数据去重 3.编写独立应用程序实现求平均值问题三、实验步

scala

flume+kafka+SparkStreaming实时日志分析+结果存储到MySQL

Frank 发表于2024-04-10 浏览6615 评论0

目录一.说明二.flume 三.kafka 四.MySQL 五.IDEA写程序六.运行一.说明 1.1使用工具：IDEA，spark-2.1.0-bin-hadoop2.7，kafka_2.11-2.3.1，zookeeper-3.4.5，apache-flume-1.9.0-bin，jdk1.8.0_171 Scala版本：2.12.15 相关工具的安装请关注我的博客！ 1.2日志可以到这里下载：testlog7.log-spark文档类资源-CSDN下

ZBlogIt

Nice to meet you, too!

Discuz CC脚本

https://www.cbdmd.com/cbd-gummies https...

scala

scala写wordcount入门案例

。发表于2024-04-20 浏览3923 评论0

架构

大数据项目之电商数仓、日志采集Flume、source、channel、 sink、Kafka的三个架构

zhiu2020 发表于2024-04-16 浏览3260 评论0

mysql

大数据就业生就业信息分析可视化（大数据就业数据分析）

夏沫浅笑 发表于2024-04-15 浏览8810 评论0

tomcat

大数据案例--网站流量项目（中）（大数据平台案例）

修无生 发表于2024-04-13 浏览4777 评论0

分布式

CDH大数据平台 15Cloudera Manager Console之flume、kafka安装和配置数据采集实战(markdown新版)

renhai 发表于2024-04-12 浏览4460 评论0

scala

RDD编程实验（rdd编程实验心得）

办公资源 发表于2024-04-11 浏览6535 评论0

scala

flume+kafka+SparkStreaming实时日志分析+结果存储到MySQL

Frank 发表于2024-04-10 浏览6615 评论0

« 2023年9月 »
一	二	三	四	五	六	日
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30