JedisConnectionException异常原因追踪

转载请注明原创出处,谢谢!

GreenMountains

//www.greatytc.com/u/2a14d4dd5ba4



情景复现

当jedis的连接池不够,或者网络抖动请求redis超时,出现JedisConnectionException,会导致NullPointerException、ClassCastException等一些灵异异常

示例代码:

ShardedJedisPool jedisPool = JedisUtils.getJedisPool();

ShardedJedis shardedJedis = jedisPool.getResource();

shardedJedis.setex("key",60,"value");

System.out.println(shardedJedis.get("key"));

System.out.println("Make SocketTimeoutException. cmd: sudo iptables -A INPUT -p tcp --dport 6379 -j DROP ");

System.in.read();

try{

System.out.println(shardedJedis.get("hi"));

}catch(JedisConnectionException e){

e.printStackTrace();

}

System.out.println("Recover from SocketTimeoutException. cmd: sudo iptables -F ");

System.in.read();

System.out.println(shardedJedis.get("key"));

System.out.println(shardedJedis.get("key"));

System.out.println(shardedJedis.get("hi"));

最后的返回值分别为:null,value,value

原因分析

创建一个Socket套接字实例,操作系统就会为其分配缓冲区以存放接收和要发送的数据。JAVA可以设置读写缓冲区的大小,Socket类setReceiveBufferSize(int size)、setSendBufferSize(int size)

向输出流写数据并不意味着数据实际上已经被发送,它们只是被复制到发送缓冲区队列SendQ,就是在Socket的OutputStream上调用flush()方法,也不能保证数据能够立即发送到网络。真正的数据发送是由操作系统的TCP协议栈模块从缓冲区中取数据发送到网络来完成的

当有数据从网络来到时,TCP协议栈模块接收数据并放入接收缓冲区队列RecvQ,输入流InputStream通过read方法从RecvQ中取出数据

jedis与redis-server的通信主要是通过对RedisInputStream和RedisOutputStream的读写操作来完成

jedis调用Protocol类的sendCommand方法,发送命令字节流到RedisOutputStream。获取数据时,调用Connection类的getBinaryBulkReply方法,先进行flush,将RedisOutputStream里的命令复制到环形缓冲区SendQ等待发送,之后RedisInputStream复制环形缓冲区RecvQ数据,解析字节流获取redis数据

当jedis连接超时,flush方法会继续write命令到缓冲区,直到SendQ队列填满。SendQ保留了断线超时时间段的所有命令。当连接恢复后,SendQ发送命令请求数据,RedisInputStream获取到之前所有超时的命令数据,并将超时的错误数据返回给当前jedis调用

比如共发送6条命令,前1、2条命令超时,当第3条命令时恢复连接,则3获取到1的数据,4获取到2的数据,5获取到3的数据,6获取到4的数据。超时导致数据窜位,获取到脏数据

解决方案

当出现JedisConnectionException,为了避免RedisInputStream缓冲区的脏数据,不应该使用broken的连接,而是需要return回连接池,然后remove掉broken连接

try{

System.out.println(shardedJedis.get("hi"));

}catch(JedisConnectionException e){

e.printStackTrace();

}finally{

shardedJedis.close();

}

只要最后finally里close即可,官方支持的,妈妈再也不用担心我的学习。close方法有个broken的标志位,会循环去回收异常的connection。

总结:异常时returnBrokenResource,正常时returnResource即可。两者只能执行一个!

为什么returnBrokenResource就能解决上面的问题呢?

原因:1.returnBrokenResource把jedispoll里面是当前异常连接remove掉了

2.returnBrokenResource 把等待队列的异常连接remove掉了。

3.returnBrokenResource  会把之前的socket连接关闭。即客户端发起关闭FIN请求。开始执行socket断开四次握手。(为了关闭客户端socket,和服务器端socket端断开,减少服务端资源开销。)

4.如果网络是持续断开,那么这个FIN到不了服务端,则服务端的socket将继续打开。(TCP连接称为半打开)。

题外话

若连接池配置了testOnBorrow=true,每次取jedis时,都会测试jedis.isConnected和ping一下服务端,但这样会造成redis的压力,testOnBorrow和testOnReturn在生产环境一般是不开启的,主要是性能考虑。失效连接主要通过testWhileIdle保证,如果获取到了不可用的数据库连接,一般由应用处理异常

参考配置:

jedis对connection的test源码:

jedis.isConnected() && jedis.ping().equals("PONG")

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • Spring Cloud为开发人员提供了快速构建分布式系统中一些常见模式的工具(例如配置管理,服务发现,断路器,智...
    卡卡罗2017阅读 135,323评论 19 139
  • 节选自《redis开发与运维》 先来看一段client list的执行结果 输出结果的每一行代表一个客户端的信息,...
    一帅阅读 14,114评论 1 7
  • 1. Java基础部分 基础部分的顺序:基本语法,类相关的语法,内部类的语法,继承相关的语法,异常的语法,线程的语...
    子非鱼_t_阅读 31,899评论 18 399
  • iPhone的标准推荐是CFNetwork 库编程,其封装好的开源库是 cocoa AsyncSocket库,用它...
    Ethan_Struggle阅读 6,684评论 2 12
  • 我是一个复习生,说实话当初真的不知道为什么选择复习,如果真要说出点什么来的话,那就是因为对陌生生活的胆怯吧...
    小脾气_41fa阅读 1,345评论 0 0