登录注册写文章

k8s的kong的问题记录

鸿雁长飞光不度

k8s的kong的问题记录

以下是整理后的事故报告，使用Markdown格式：

接口超时事故报告

1. 事故概述

早晨接到上游反馈，调用我们的接口出现超时情况，但我们系统未收到任何报警。

2. 问题排查

2.1 初步调查

上游通过Kong网关请求我们的服务
第一次请求超时，客户端内部重试后成功
我们的系统只能看到成功请求的日志，无法看到失败请求

2.2 Kong日志分析

发现以下错误，出现82次：

*355713994 connect failed (113: No route to host) while connecting to upstream,", upstream: "grpc://10.120.162.183:8023"

2.3 Pod状态检查

初步判断可能是Pod挂起或假死
Pod表面状态正常
K8s健康检查机制每10分钟一次，存在漏检可能

2.4 资源使用情况

通过Grafana监控发现：

CPU使用率逐渐接近扩容临界值
推测某个Pod压力过大，导致状态不佳
未触发自动扩容机制

3. 原因分析

单个Pod CPU压力过大
健康检查间隔较长，未能及时发现问题
自动扩容机制未及时触发

4. 后续措施

调整单个Pod的CPU request和limit上限
关注Kong的日志报警
考虑缩短健康检查间隔
优化自动扩容策略

5. 总结

本次事故主要由于单个Pod资源压力过大，coupled with 健康检查和自动扩容机制的不足导致。通过调整资源配置和优化监控机制，可以提高系统的稳定性和可靠性。

©著作权归作者所有,转载或内容合作请联系作者
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

推荐阅读更多精彩内容

最新、最全、最详细的 K8S 学习笔记总结（2021最新版）
虽然Docker[http://mp.weixin.qq.com/s?__biz=MzI0MDQ4MTM5NQ==...
前浪浪奔浪流阅读 12,771评论 3赞 108
k8s 入门之16个基本概念
[toc] k8s 入门之16个基本概念 Kubernetes是Google开源的容器集群管理系统，是Google...
会理发的店小二阅读 895评论 0赞 0
③k8s部署应用的流程与管理
适用于大部分项目(大同小异) 一、项目迁移到K8S平台是怎样的流程要以镜像作为交付对象，不再以jar包、war...
Linux丶晨星阅读 2,872评论 0赞 2
k8s 学习笔记
命令汇总查看命令描述kubectl get svc/services获取创建的services信息kubect...
奔跑De猪阅读 626评论 0赞 0
记一次k8s pod频繁重启的优化之旅
1.背景最近有运维反馈某个微服务频繁重启，客户映像特别不好，需要我们尽快看一下。听他说完我立马到监控平台去看这...
狂徒_张三阅读 158评论 0赞 1

赞1赞

赞赏

手机看全文