登录注册写文章

为什么Kafka这么快

为什么Kafka这么快

顺序IO

1.Kafka使用了顺序IO（Sequential IO），并极力避免随机磁盘访问（Random Disk Access）。顺序IO的写入速度比后者快了一个数量级。
2.Kafka提交日志就是以追加的方式写入分区的，单个分区的写入是可以保证顺序的，没有删除和更新操作，因此避免了随机写入。另外，从分区读取数据的时候也是按顺序读取的，避免了随机读取。

image.png

为什么Kafka不用内存来保存数据呢？

内存虽快，但比硬盘要贵得多。Kafka作为一个大数据生态系统的一员，是为保存海量数据而生的，使用内存来保存海量数据显然是不现实的。
Kafka的高可用是通过创建多个副本来实现的，一个消息可能会被复制三份五份，这无疑又增加了存储开销
Kafka运行在JVM上，如果内存堆中的对象太多，必然会在垃圾回收时造成严重的延迟，从而影响系统的整体性能。

内存映射文件

内存映射文件将磁盘上的文件内容与内存映射起来，我们往内存里写入数据，操作系统会在稍后把数据冲刷到磁盘上。所以，在写入数据时几乎就是写入内存的速度，这是Kafka快到飞起的另一个原因。

零拷贝

当Kafka客户端从服务器读取数据时，如果不使用零拷贝技术，那么大致需要经历这样的一个过程：

1.操作系统将数据从磁盘上读入到内核空间的读缓冲区中。
2.应用程序（也就是Kafka）从内核空间的读缓冲区将数据拷贝到用户空间的缓冲区中。
3.应用程序将数据从用户空间的缓冲区再写回到内核空间的socket缓冲区中。
4.操作系统将socket缓冲区中的数据拷贝到NIC缓冲区中，然后通过网络发送给客户端。

image.png

从图中可以看到，数据在内核空间和用户空间之间穿梭了两次，那么能否避免这个多余的过程呢？当然可以，Kafka使用了零拷贝技术，也就是直接将数据从内核空间的读缓冲区直接拷贝到内核空间的socket缓冲区，然后再写入到NIC缓冲区，避免了在内核空间和用户空间之间穿梭

image.png

应用层面的优化

除了利用底层的技术外，Kafka还在应用程序层面提供了一些手段来提升性能。最明显的就是使用批次。在向Kafka写入数据时，可以启用批次写入，这样可以避免在网络上频繁传输单个消息带来的延迟和带宽开销。假设网络带宽为10MB/S，一次性传输10MB的消息比传输1KB的消息10000万次显然要快得多。

©著作权归作者所有,转载或内容合作请联系作者
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

推荐阅读更多精彩内容

（转）同样是消息队列，为什么Kafka这么快？
转自码农沉思录。 Kafka的消息是保存或缓存在磁盘上的，一般认为在磁盘上读写数据是会降低性能的，因为寻址会比较消...
黄宝玲_1003阅读 692评论 0赞 1
面试官问：为什么kafka这么快，又能保证消息不丢失？
小菜鸡最近在疯狂面试中，就是为了能拿到一份满意的offer，这不上周又去头条受虐了。面试过程中，由于小菜鸡的充分...
美团Java阅读 12,574评论 19赞 170
美团Java研发二面：看你简历写了熟悉Kafka，它为什么速度会这么快？
前言 Kafka的消息是保存或缓存在磁盘上的，一般认为在磁盘上读写数据是会降低性能的，因为寻址会比较消耗时间，但是...
风平浪静如码阅读 343评论 0赞 1
扯下窗帘，阳光倾泻而下。
渐变的面目拼图要我怎么拼？我是疲乏了还是投降了？不是不允许自己坠落，我没有滴水不进的保护膜。就是害怕变得面...
闷热当乘凉阅读 4,352评论 0赞 13
你说
夜莺2517阅读 127,762评论 1赞 9

赞1赞

赞赏

手机看全文