×

scala

scala写wordcount入门 案例

。 发表于2024-04-20 浏览3923 评论0
复杂WordCount案例 1)方式一 object TestWordCount {     def main(args: Array[String]): Unit = {         // 第一种方式(不通用)         val tupleList = List(("Hello Scala Spark World ", 4), ("Hello Scala Spark", 3), ("Hello Scala", 2), ("Hello", 1))         val str

架构

大数据项目之电商数仓、日志采集Flume、source、channel、 sink、Kafka的三个架构

zhiu2020 zhiu2020 发表于2024-04-16 浏览3260 评论0
4. 用户行为数据采集模块 4.3 日志采集Flume 4.3.1 Kafka的三个架构 4.3.1.1 source taildir source:可以读取文件的数据,实时的读取文件的数据,并且支持断点续传 avro source :是在Flume之间互相传输的一般配合avro sink,经常使用在Flume做成拓扑结构的时候 nc source :接收网络端口的 exec source:可以读取文件的数据,实时的读取文件的数据,并且不支持断点续传,一般没有人用 spo

mysql

大数据就业生就业信息分析可视化(大数据就业数据分析)

夏沫浅笑 夏沫浅笑 发表于2024-04-15 浏览8810 评论0
摘  要 本文利用Hadoop+Hive技术分析就业生毕业后就业信息,对所包含职业、岗位、薪资、所在城市、行业类别等数据信息进行模拟,分析与处理,提取出匹配到的目标数据并将其归类化处理.得出各大城市就业生就业情况数据,为大数据时代应聘人员及高校制定人才培养方案提供数据参考.   关键词:就业;就业生;大数据 第1章  引言 1.1 目的 教育部发文,今年高校毕业生超千万,就业形势严峻 内卷现状加剧,2022应届生超千万,蓝领或成就业新风口 超千万应届毕业生,加剧就业

tomcat

大数据案例--网站流量项目(中)(大数据平台案例)

修无生 修无生 发表于2024-04-13 浏览4777 评论0
目录  一、Hive做离线批处理 1、实现步骤 ①、启动hadoop,启动hive ②、在hive下创建weblog库,并使用 ③、 创建外部表管理数据 ④、为总表添加当天分区数据 ⑤、建立数据清洗表,用于清洗出业务所需的字段。 ⑥、业务处理 ⑦、创建业务表并插入数据 ⑧、从清洗表查询得到当天的统计指标,插入到业务表中 ⑨、利用Sqoop工具从HDFS上将数据导入到Mysql数据库中 二、Hive的占位符与文件调用 1、概述 2、Hive文件的调用 3、Hive占位

分布式

CDH大数据平台 15Cloudera Manager Console之flume、kafka安装和配置数据采集实战(markdown新版)

renhai renhai 发表于2024-04-12 浏览4460 评论0
💖个人主页:@与自己作战💯作者简介:CSDN@博客专家、CSDN@大数据领域优质创作者、CSDN@内容合伙人、阿里云@专家博主🆘希望大佬们多多支持,携手共进📝 如果文章对你有帮助的话,欢迎评论💬点赞👍收藏📂加关注⛔如需要支持请私信我,💯必支持 一、kafka配置(cdh-master-v01) 1、kafka创建topic kafka-topics --zookeeper cdh-client-v01.yunes.com:2181,cdh-master-v01.

scala

RDD编程实验(rdd编程实验心得)

办公资源 办公资源 发表于2024-04-11 浏览6535 评论0
RDD编程初级实践 基于《Spark编程基础(Scala版)》 前言 前面已经基于docker搭建好spark集群,集群为一台master和两台slave,主机为windows系统,集群搭建在linux下。 一、实验目的 1.熟悉Spark的RDD基本操作及键值对操作; 2.熟悉使用RDD编程解决实际具体问题的方法。 二、实验内容和要求 1.spark-shell交互式编程 2.编写独立应用程序实现数据去重 3.编写独立应用程序实现求平均值问题 三、实验步