Redis缓存穿透、缓存击穿与缓存雪崩：原理剖析与综合防御实战

Table of Contents

缓存穿透：当请求绕过缓存直达数据库

缓存穿透是指请求的数据在缓存和数据库中都不存在，每次请求都直接穿透缓存层打到数据库。这种情况最常见的场景是恶意攻击或扫描器遍历不存在的ID。由于缓存层对不存在的数据不会缓存（除非使用空值缓存策略），这些请求会持续命中数据库，在高并发下瞬间打垮后端服务。

举个例子，一个电商系统的商品详情接口使用Redis缓存商品信息。攻击者批量请求不存在的商品ID（如负数ID或随机UUID），每次请求都查缓存未命中→查数据库未找到→返回空结果。如果QPS达到10000，数据库直接面临10000/s的无效查询压力。

解决方案一：缓存空值

对缓存穿透最直接的应对方案是：即使数据库中查不到数据，也把一个空值或特殊标记写入缓存，并设置较短的过期时间（通常30-60秒）。这样同一请求在短期内不会重复穿透到数据库。


1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
// Java示例：缓存空值解决缓存穿透

public Product getProduct(Long id) {

    String cacheKey = "product:" + id;

    String cached = redis.get(cacheKey);

    

    if (cached != null) {

        // 如果是空值标记，直接返回null

        if ("NULL_VALUE".equals(cached)) {

            return null;

        }

        return JSON.parseObject(cached, Product.class);

    }

    

    Product product = productMapper.selectById(id);

    if (product == null) {

        // 缓存空值，过期时间30秒

        redis.setex(cacheKey, 30, "NULL_VALUE");

        return null;

    }

    redis.setex(cacheKey, 3600, JSON.toJSONString(product));

    return product;

}

优点在于实现简单、对已有代码改动小。缺点是无法完全防护恶意攻击——攻击者每次用不同的key就能绕过去。同时大量空值缓存也会占用内存，不过可以通过限制空值缓存的总量来缓解。

解决方案二：布隆过滤器（Bloom Filter）

布隆过滤器是一种空间效率极高的概率性数据结构，可以非常确定地判断一个元素”一定不在集合中”，或”可能在集合中”。在缓存层前置布隆过滤器，可以拦截掉绝大多数的无效key请求。

布隆过滤器的原理是：使用多个哈希函数将一个元素映射到bit数组上的多个位。查询时，如果任意一个位为0，则该元素一定不存在；如果所有位都为1，则该元素可能存在（存在一定误判率）。


1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
// Redis 4.0+ 使用布隆过滤器模块

// 1. 安装RedisBloom模块

// docker run -p 6379:6379 redislabs/rebloom



// 2. 初始化布隆过滤器

// 预计存储100万元素，误判率0.01

> BF.RESERVE product_bloom 0.01 1000000

OK



// 3. 添加已有商品ID

> BF.ADD product_bloom 1001

(integer) 1

> BF.ADD product_bloom 1002

(integer) 1



// 4. 查询商品是否存在

> BF.EXISTS product_bloom 9999

(integer) 0  // 一定不存在

> BF.EXISTS product_bloom 1001

(integer) 1  // 可能存在

方案	优点	缺点	适用场景
缓存空值	实现简单，无需额外组件	大量无效key浪费内存	穿透量不大，key空间有限
布隆过滤器	内存占用极小，拦截率高	需维护数据同步，有误判率	高并发、key空间固定场景
参数校验+限流	从源头拦截恶意请求	无法拦截合法但不存在的数据	必须与其他方案配合

缓存击穿：热点Key的雪崩前兆

缓存击穿与穿透不同：击穿针对的是某个热点Key正好在过期的那一刻，大量并发请求同时涌入，发现缓存过期了，于是一齐去数据库查询。这就像一扇门刚好在人群涌来时关上，所有人同时撞上去。

典型场景：一个日活千万的首页推荐列表，缓存过期时间为1小时。在过期的那一秒，同时有5000个请求发现缓存为空，全部打到数据库，数据库连接池瞬间耗尽。

解决方案一：互斥锁（Mutex Lock）

只让一个线程去查数据库重建缓存，其他线程等待。这是最经典也最有效的方案：


1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
// Go语言实现：使用互斥锁防止缓存击穿

import (

    "sync"

    "time"

    "github.com/redis/go-redis/v9"

)



var (

    rdb    *redis.Client

    locker sync.Mutex // 进程内锁，适用于单机

)



func GetHotData(ctx context.Context, key string) (string, error) {

    val, err := rdb.Get(ctx, key).Result()

    if err == redis.Nil { // 缓存不存在

        locker.Lock()

        defer locker.Unlock()

        

        // 双重检查：另一个线程可能已经重建了缓存

        val, err = rdb.Get(ctx, key).Result()

        if err != redis.Nil {

            return val, nil

        }

        

        // 查询数据库

        data := queryDatabase()

        rdb.Set(ctx, key, data, 3600*time.Second)

        return data, nil

    }

    return val, err

}

在分布式环境下，需要使用Redis分布式锁代替进程内锁：


1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
// Redis分布式锁实现缓存击穿防护

// 使用SET NX + Lua脚本保证原子性

String lockKey = "lock:hot_key";

String lockValue = UUID.randomUUID().toString();



// 尝试获取锁，过期时间5秒

Boolean lock = redis.setIfAbsent(lockKey, lockValue, 5, TimeUnit.SECONDS);

if (lock) {

    try {

        // 拿到锁的线程查数据库并重建缓存

        String data = queryDatabase();

        redis.setex(cacheKey, 3600, data);

        return data;

    } finally {

        // Lua脚本保证原子释放锁

        String luaScript = "if redis.call('get', KEYS[1]) == ARGV[1] then return redis.call('del', KEYS[1]) else return 0 end";

        redis.eval(luaScript, Collections.singletonList(lockKey), Collections.singletonList(lockValue));

    }

} else {

    // 没拿到锁的线程等待后重试

    Thread.sleep(50);

    return getProduct(id); // 递归重试

}

解决方案二：逻辑过期 + 异步刷新

不让缓存真正过期，而是利用”逻辑过期”概念。缓存永不过期（物理上），但数据中带一个逻辑过期时间。后台异步线程检测到逻辑过期后，主动去更新缓存：


1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
// 逻辑过期数据结构

public class CacheItem&lt;T&gt; {

    private T data;          // 实际数据

    private long expireTime; // 逻辑过期时间戳

    

    public boolean isExpired() {

        return System.currentTimeMillis() > expireTime;

    }

}



// 使用时：即使逻辑过期也返回旧数据，后台异步刷新

public Product getProductWithAsyncRefresh(Long id) {

    String cacheKey = "product:" + id;

    CacheItem&lt;Product&gt; item = redis.getObject(cacheKey);

    

    if (item != null && !item.isExpired()) {

        return item.getData(); // 缓存有效，直接返回

    }

    

    if (item != null && item.isExpired()) {

        // 尝试获取重建锁

        String lockKey = "lock:rebuild:" + id;

        if (tryLock(lockKey, 3, TimeUnit.SECONDS)) {

            // 异步线程池执行数据更新

            threadPool.execute(() -> {

                Product newData = queryDatabase();

                redis.setex(cacheKey, 24*3600, new CacheItem&lt;&gt;(newData, System.currentTimeMillis() + 3600*1000));

                unlock(lockKey);

            });

        }

        // 不管是否拿到锁，都返回旧数据

        return item.getData();

    }

    

    // 缓存完全不存在（可能是第一次加载）

    return loadToCache(id);

}

缓存雪崩：大规模缓存集体失效

缓存雪崩是最严重的缓存故障。它指的是大量缓存Key在同一时间过期，或者缓存节点宕机，导致海量请求直接涌入数据库。与击穿不同，雪崩是”大面积”的，而不是针对某一个Key。

真实案例：某电商平台将商品缓存统一设置为1小时过期，所有缓存在00:00同时失效。零点过后数据库QPS从500飙升到50000，直接导致数据库连接池耗尽、主从延迟超过10秒，整个商品服务瘫痪30分钟。

解决方案一：过期时间随机化

这是最简单有效的预防手段。不给所有Key设置相同的过期时间，而是在基础时间上增加一个随机偏移量：


1
2
3
4
5
6
7
8
9
10
11
12
// Java：过期时间加随机偏移

// 基础1小时 + 随机0-10分钟

int baseTTL = 3600;

int randomOffset = new Random().nextInt(600);

redis.setex(key, baseTTL + randomOffset, value);



// Python：带随机偏移的缓存设置

import random



def set_cache(redis_client, key, value, base_ttl=3600):

    jitter = random.randint(0, 600)  # 0-10分钟随机

    redis_client.setex(key, base_ttl + jitter, value)

解决方案二：多级缓存架构

在Redis前面再加一层本地缓存（如Caffeine、Guava Cache），形成二级或三级缓存结构。即使Redis层的缓存全部失效，本地缓存仍然可以挡住一部分流量：


1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
// Spring Boot + Caffeine 多级缓存示例

@Configuration

public class MultiLevelCacheConfig {

    

    @Bean

    public Cache&lt;String, Object&gt; localCache() {

        return Caffeine.newBuilder()

            .initialCapacity(1000)

            .maximumSize(10000)

            .expireAfterWrite(5, TimeUnit.MINUTES) // 本地缓存5分钟

            .recordStats()

            .build();

    }

}



@Service

public class ProductService {

    @Autowired

    private Cache&lt;String, Object&gt; localCache;

    @Autowired

    private StringRedisTemplate redisTemplate;

    

    public Product getProduct(Long id) {

        String cacheKey = "product:" + id;

        

        // 1. 查本地缓存

        Product local = (Product) localCache.get(cacheKey, k -> null);

        if (local != null) return local;

        

        // 2. 查Redis

        String redisData = redisTemplate.opsForValue().get(cacheKey);

        if (redisData != null) {

            Product p = JSON.parseObject(redisData, Product.class);

            localCache.put(cacheKey, p); // 回填本地缓存

            return p;

        }

        

        // 3. 查数据库（降级保护）

        Product dbData = queryFromDatabaseWithFallback(id);

        if (dbData != null) {

            redisTemplate.opsForValue().set(cacheKey, JSON.toJSONString(dbData), 3600, TimeUnit.SECONDS);

            localCache.put(cacheKey, dbData);

        }

        return dbData;

    }

    

    // 数据库查询带降级保护

    private Product queryFromDatabaseWithFallback(Long id) {

        // 使用信号量控制并发数据库查询

        if (!dbSemaphore.tryAcquire()) {

            // 超过并发限制，返回降级数据或抛出友好异常

            return Product.getDefaultProduct();

        }

        try {

            return productMapper.selectById(id);

        } finally {

            dbSemaphore.release();

        }

    }

}

解决方案三：Redis集群高可用

针对缓存节点宕机导致的雪崩，必须从架构层面保证Redis的高可用：

主从复制 + 哨兵模式（Sentinel）：自动故障转移，秒级切换。适合不超过10个节点的中小规模部署。
Redis Cluster：数据分片存储，部分节点宕机不影响整体服务。适合大规模分布式部署。
冗余部署：部署两套独立的Redis集群，应用层做双读双写，一套挂了自动切换到另一套。
本地缓存兜底：即使Redis完全不可用，本地缓存依然可以提供服务，虽然数据可能稍有滞后但系统不会崩溃。

三大场景的综合防御架构

在实际生产环境中，这三种场景往往同时存在，需要构建一个综合的防御体系。以下是一个经过线上验证的多层防御架构：


1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
# 综合缓存防御架构（以秒杀系统为例）

请求入口

  │

  ├─ 第1层：参数校验 & 限流（Nginx + Sentinel）

  │   ├── 校验参数合法性（ID格式、数值范围）

  │   ├── 对同一用户/设备限流

  │   └── 对热点接口整体限流

  │

  ├─ 第2层：布隆过滤器（拦截穿透）

  │   ├── 预热时加载所有有效ID

  │   └── BF.EXISTS == 0 ⇒ 直接返回404

  │

  ├─ 第3层：本地缓存 Caffeine（拦截击穿 & 防雪崩）

  │   ├── 过期时间：60秒，最大条目：10000

  │   └── 即使Redis挂了，仍有缓存

  │

  ├─ 第4层：Redis Cluster（主缓存层）

  │   ├── Key过期时间：基础值 + 随机偏移

  │   ├── 热点Key：逻辑过期 + 异步刷新

  │   └── 不存在的数据：缓存空值 30秒

  │

  └─ 第5层：数据库（最终防线）

      ├── 连接池限制（HikariCP max=20）

      ├── 读写分离（主库写、从库读）

      └── 慢查询监控 + 熔断降级

性能对比与实战建议

防护手段	应对场景	性能开销	实现复杂度	推荐指数
缓存空值	缓存穿透	极低	⭐	★★★★★
布隆过滤器	缓存穿透	低	⭐⭐	★★★★☆
互斥锁	缓存击穿	中（有等待）	⭐⭐	★★★★★
逻辑过期+异步	缓存击穿	低（无等待）	⭐⭐⭐	★★★★★
过期时间随机化	缓存雪崩	极低	⭐	★★★★★
本地缓存兜底	缓存雪崩	低	⭐⭐	★★★★★
Redis高可用	缓存雪崩	中	⭐⭐⭐⭐	★★★★★

最后给出几条切实可行的建议：

必须做：过期时间加随机偏移 + 缓存空值处理。这两项改动最小、收益最大，任何Redis项目都应默认实施。
推荐做：对热点数据使用逻辑过期+异步刷新，避免击穿时的大量等待。
高级方案：引入布隆过滤器拦截穿透请求，配合多级缓存架构应对极端流量。
监控告警：监控Redis缓存命中率、数据库QPS、慢查询数量，设置分级告警阈值。当缓存命中率低于80%或数据库QPS超过正常值2倍时自动触发告警。
压测验证：上线前使用压测工具模拟缓存穿透、击穿和雪崩场景，验证防护策略是否有效。推荐使用JMeter或Locust进行实际演练。

缓存穿透、击穿和雪崩是Redis生产环境中最常见的三大”坑”。理解它们的原理和区别，掌握对应的解决方案，是每一位后端工程师的必修课。希望这篇文章能帮你构建一个更健壮的缓存系统，让你的应用在面对高并发时也能从容应对。