kafka分区数量不均衡如何确定Kafka的分区数，key和consumer线程数，以及不消费问题解决

2020-10-05知识14

kafka 一个分区partition 只能有一个消费者吗

如何确定Kafka的分区数，key和consumer线程数，以及不消费问题解决在Kafak中国社区的qq群中，这个问题被提及的比例是相当高的，这也是Kafka用户最常碰到的问题之一。本文结合Kafka源码试图对该问题相关的因素进行探讨。希望对大家有所帮助。怎么确定分区数？“我应该选择几个分区？如果你在Kafka中国社区的群里，这样的问题你会经常碰到的。不过有些遗憾的是，我们似乎并没有很权威的答案能够解答这样的问题。其实这也不奇怪，毕竟这样的问题通常都是没有固定答案的。Kafka官网上标榜自己是\"high-throughput distributed messaging system\"，即一个高吞吐量的分布式消息引擎。那么怎么达到高吞吐量呢？Kafka在底层摒弃了Java堆缓存机制，采用了操作系统级别的页缓存，同时将随机写操作改为顺序写，再结合Zero-Copy的特性极大地改善了IO性能。但是，这只是一个方面，毕竟单机优化的能力是有上限的。如何通过水平扩展甚至是线性扩展来进一步提升吞吐量呢？Kafka就是使用了分区(partition)，通过将topic的消息打散到多个分区并分布保存在不同的broker上实现了消息处理(不管是producer还是consumer)的高吞吐量。Kafka的生产者和消费者都可以多线程地并行操作，而每个线程处理的是一个分区的数据。因此分区实际上是调优Kafka并行度的最小。

kafka分区数量不均衡如何确定Kafka的分区数，key和consumer线程数，以及不消费问题解决

kafka 生产者与消费者数量与主题的分区数有什么关系？问题1：了解到 kafka 有消费者群组机制，如果线程数大于分区数则多出的线程将空闲，假如主题有5个分区，…

kafka分区数量不均衡如何确定Kafka的分区数，key和consumer线程数，以及不消费问题解决

如何决定kafka集群中话题的分区的数量如何决定kafka集群中topic，partition的数量，这是许多kafka用户经常遇到的问题。本文列举阐述几个重要的决定因素，以提供一些参考。分区多吞吐量更高一个话题topic的各个分区partiton之间是并行的。在producer和broker方面，写不同的分区是完全并行的。因此一些昂贵的操作比如压缩，可以获得更多的资源，因为有多个进程。在consumer方面，一个分区的数据可以由一个consumer线程在拉去数据。分区多，并行的consumer（同一个消费组）也可以多。因此通常，分区越多吞吐量越高。基于吞吐量可以获得一个粗略的计算公式。先测量得到在只有一个分区的情况下，Producer的吞吐量(P)和Consumer的吞吐量(C)。那如果总的目标吞吐量是T的话，max(T/P，T/C)就是需要的最小分区数。在单分区的情况下，Producer的吞吐量可以通过一些配置参数，比如bath的大小、副本的数量、压缩格式、ack类型来测得。而Consumer的吞吐量通常取决于应用程序处理每一天消息逻辑。这些都是需要切合实际测量。随着时间推移数据量的增长可能会需要增加分区。有一点需要注意的是，Producer者发布消息通过key取哈希后映射分发到一个指定的分区，当分区数发生变化后，会带来key和分区映射关系发生变化。可能。

kafka消费者组数量较大对性能有什么影响？如果消费者组的数量较大（比如几十个group，每个组十个consumer），对消费和broker的性能有什么影响？

linux 怎样查看kafka的某 topic数据 1、创建一个需要增加备份因子的topic列表的文件，文件格式是json格式的。2、使用kafka官方提供的工具拿到上面topic的partions 分布情况，并重定向到文件中。3、修改ressgintopic.conf 文件的，手动分配新增加的partion 备份因子。4、通过下面命令执行备份因子扩容过程，bin/kafka-reassign-partitions.sh-zookeeper localhost：2181-reassignment-json。5、最后查看kafka的某 topic数据如图。注意事项：Kafka的目的是通过Hadoop的并行加载机制来统一线上和离线的消息处理，也是为了通过集群来提供实时的消息。

如何确定Kafka的分区数，key和consumer线程数，以及不消费问题解决分区实际上是调优Kafka并行度的最小单元。对于producer而言，它实际上是用多个线程并发地向不同分区所在的broker发起Socket连接同时给这些分区发送消息；而consumer呢，同一个消费组内的所有consumer线程都被指定topic的某一个分区进行消费（具体如何确定consumer线程数目我们后面会详细说明）。所以说，如果一个topic分区越多，理论上整个集群所能达到的吞吐量就越大。

#topic #线程 #kafka命令 #linux分区 #kafka

阅读全文

kafka分区数量不均衡 如何确定Kafka的分区数，key和consumer线程数，以及不消费问题解决

随机阅读

kafka分区数量不均衡如何确定Kafka的分区数，key和consumer线程数，以及不消费问题解决