×

分布式

浅谈Kafka消息压缩(kafka 消息压缩)

不能说的秘密 不能说的秘密 发表于2024-06-18 浏览6079 评论0
概述 Kafka目前支持GZIP、Snappy、LZ4、zstd、不压缩这几种压缩算法。在开启压缩时,Kafka会选择一个batch的消息一起压缩,这样的一批消息就是一个压缩分段,我们也可以通过参数来控制每批消息的大小。 在Kafka中,生产者生成一个压缩分段发给broker,在broker中是不会解压这个压缩分段的(因为在Kafka中一个batch的消息在broker中是不会拆分的,自然也不会进行解压),最后压缩分段由消费者进行解压。 Kafka通过这种设计,降低了broker中CPU

大数据

SparkStreaming与Kafka整合遇到的问题及解决方案(kafka对接sparkstreaming)

站长资讯网友投稿帖 站长资讯网友投稿帖 发表于2024-06-18 浏览4597 评论0
最近工作中是做日志分析的平台,采用了sparkstreaming+kafka,采用kafka主要是看中了它对大数据量处理的高性能,处理日志类应用再好不过了,采用了sparkstreaming的流处理框架 主要是考虑到它本身是基于spark核心的,以后的批处理可以一站式服务,并且可以提供准实时服务到elasticsearch中,可以实现准实时定位系统日志。

scala

alpakka-kafka(9)-kafka在分布式运算中的应用(Ka的算法)

清风 清风 发表于2024-06-15 浏览6575 评论0
kafka具备的分布式、高吞吐、高可用特性,以及所提供的各种消息消费模式可以保证在一个多节点集群环境里消息被消费的安全性:即防止每条消息遗漏处理或重复消费。特别是exactly-once消费策略:可以保证每条消息肯定只被消费一次。换句话说就是在分布式运算环境里kafka的消息消费是能保证唯一性的。 但是,保证了消息读取唯一性,消息的处理过程如果也放到分布式运算环境里仍然会面对数据完整性(data integrity)问题。例如:消息处理过程是更新银行账户中金额、消息内容是更新某个账户的指令,那