redis scan 命令底层原理(为什么会重复扫描?)

发布网友发布时间：2024-10-03 14:43

共1个回答

热心网友时间：2024-10-19 22:29

在 Redis 中，迭代器作为数据结构的重要组成部分，用于在字典等容器上高效地遍历数据。然而，迭代过程中字典可能因为数据增删而触发 rehash，导致数据可能被重复遍历。本文将探讨 Redis 如何解决这个问题。

首先，Redis 的字典迭代器数据结构包含一个 48 字节的指纹，它是字典状态的标识，通过 dictFingerprint 函数生成，当字典结构变化时，指纹值也随之改变。redis 提供了两种迭代器：普通迭代器和安全迭代器。普通迭代器对字典指纹严格校验，确保数据不重复，适用于如 sort 命令，它在读取有序集合数据时使用。安全迭代器则确保在 rehash 期间数据的准确性，允许字典操作，如 keys 命令中用于遍历整个字典。

对于大规模数据，Redis 通过 scan 命令引入了间断遍历（如 hscan 和 zscan），如 dictScan 函数，允许在操作过程中进行 rehash。dictScan 通过算法设计，保证所有数据都能遍历到，同时避免了在扩容或缩容时的重复扫描。具体来说，它利用位反转算法和取模操作来调整遍历顺序，确保数据的一致性。

在 rehash 过程中，Redis 会并存两个哈希表，小表优先遍历。后台线程定期处理 rehash，以1ms为间隔。scan 逻辑中，一次 dictScan 可能会遍历多个槽位，而客户端命令扫描的次数可能超出预期，这可能导致线程阻塞。

总结来说，Redis 通过指纹校验、安全机制和巧妙的遍历策略，确保了迭代过程的准确性和效率，即使在 rehash 操作中也能有效地避免数据重复遍历的问题。

参考资料：
- Add SCAN command
- Fix dictScan(): It can't scan all buckets when dict is shrinking.
-《Redis 设计与源码分析》【陈雷】