HNSW 向量搜索扩展：解决 RAG 系统中的召回率下降问题

随着检索增强生成 (RAG) 从原型阶段走向生产环境，许多开发者遇到了一个令人困惑的悖论：随着知识库的增长，系统的性能往往反而下降。虽然我们期望更多的数据能提供更好的上下文，但底层的向量搜索机制——最常用的是分层导航小世界 (HNSW) 算法——会遭遇一种被称为“召回率退化” (Recall Degradation) 的现象。本文将深入探讨为什么 HNSW 在大规模场景下表现乏力，以及如何构建能够克服这些限制的系统架构。

HNSW 的魅力与运行机制

HNSW 是近似最近邻 (ANN) 搜索的行业标准。它将数据组织成一个多层图，其中顶层包含较少的点（远距离边），而底层包含完整的数据集（短距离边）。这种层次结构允许对数级的时间复杂度，使得即使在处理数百万个向量时，搜索速度也极快。

然而，速度是有代价的。与将查询与每个向量进行比较的穷举式扁平搜索不同，HNSW 是概率性的。它寻找的是“可能的”最近邻。在构建强大的 RAG 工作流时，开发者经常依赖 n1n.ai 来获取可靠的顶级嵌入模型接口，以确保初始向量的质量，但索引策略最终决定了这些向量在之后能否被成功检索。

为什么召回率会随数据库增长而下降？

召回率是指搜索实际返回的真实最近邻占总真实最近邻的百分比。在一个较小的数据集（如 10,000 个向量）中，标准的 HNSW 配置可能达到 99% 的召回率。当数据集增长到 1,000 万时，同样的配置可能会下降到 85% 甚至更低。这主要有三个原因：

图连通性与维度灾难：在高维空间中（例如 OpenAI 的 1536 维或 DeepSeek 的 1024 维），点与点之间的“距离”变得不再那么有辨识度。随着图的增长，到达特定节点的路径数量增加，但如果图的密度不够，贪婪搜索找到最优路径的概率就会降低。
枢纽问题 (Hubness Problem)：某些向量会自然地成为“枢纽”，成为不成比例的大量其他点的邻居。在大规模情况下，这些枢纽可能会主导搜索路径，导致算法偏离真实的最近邻。
动态更新与碎片化：大多数 RAG 系统是动态的。在 HNSW 索引中频繁插入和删除会导致图结构变得不再最优。随着时间的推移，图的“小世界”属性会退化，产生孤立的“岛屿”或低效的路由路径。

技术实现：针对大规模场景优化 HNSW

为了保持高召回率，必须调整构建和搜索参数。以下是使用 FAISS 库的 Python 示例，展示了如何配置 HNSW 索引以提高准确性（代价是内存和延迟）。

import faiss
import numpy as np

dimension = 1536  # LLM 嵌入的标准维度
n_data = 1000000  # 100 万个向量

# M: 构建索引时为每个新元素创建的双向链接数
# 增加 M 可以提高召回率，但会增加索引的大小
M = 32

# ef_construction: 构建索引时的搜索深度
# 值越高，图结构越精确，但索引构建速度越慢
ef_construction = 200

# 创建索引
index = faiss.IndexHNSWFlat(dimension, M)
index.hnsw.efConstruction = ef_construction

# 生成模拟数据
data = np.random.random((n_data, dimension)).astype('float32')
index.add(data)

# ef_search: 查询时的搜索深度
# 这是扩展规模时最关键的参数
# 延迟会随着 ef_search 的增加而线性增长
index.hnsw.efSearch = 128

query = np.random.random((1, dimension)).astype('float32')
k = 5
D, I = index.search(query, k)

参数与性能对比表

参数	对延迟的影响	对内存的影响	对召回率的影响
`M` (更高)	轻微增加	显著增加	中度提升
`ef_construction` (更高)	显著 (仅索引构建期)	无	显著提升
`ef_search` (更高)	显著 (查询期)	无	极大提升

应对退化的高级策略

仅仅增加参数并不总是足够的。对于企业级 RAG，请考虑以下架构转变：

1. 两阶段检索（重排序 Reranking）

与其让 HNSW 直接寻找前 5 个最相关的片段，不如让它寻找前 50 个。然后，使用交叉编码器 (Cross-Encoder) 模型对这 50 个结果进行重新排序，选出最终的前 5 个。通过利用 n1n.ai 提供的多样化模型生态系统，你可以在 Claude 3.5 Sonnet 和 GPT-4o 之间切换，以实现更好的重排序编排，确保即使 HNSW 在前 5 名中漏掉了绝对最佳匹配，它也很可能出现在前 50 名中。

2. 乘积量化 (PQ)

随着数据库的增长，内存会成为瓶颈。PQ 可以压缩向量，允许你将索引保留在 RAM 中。虽然 PQ 本身可能会降低召回率，但将其与 HNSW 结合使用 (HNSW+PQ) 可以支持更大规模的图，相比纯受内存限制的扁平 HNSW 索引，这种组合能保持更好的结构完整性。

3. 混合搜索 (Hybrid Search)

向量搜索擅长理解语义，但在处理特定关键词时表现较差。将 HNSW 与传统的 BM25 关键词搜索相结合可以弥补召回率的缺口。如果向量搜索因为图碎片化而未能找到某个特定的技术术语，关键词搜索通常能够捕捉到它。

结论

扩展 RAG 系统不仅仅是向向量库中添加更多数据。它需要深入理解 HNSW 如何在高维空间中导航。通过监控召回率指标并调整 ef_search 和 M 参数，你可以防止系统随着规模增长而变得“迟钝”。

当你的基础设施由 n1n.ai 的高速 API 网关提供支持时，监控 RAG 性能会变得更加容易，该网关提供了实时搜索和检索所需的低延迟嵌入接口。不要让图的复杂性成为负担——从第一天起就为规模化进行调优。

在 n1n.ai 获取免费 API 密钥。

参考来源：https://towardsdatascience.com/hnsw-at-scale-why-your-rag-system-gets-worse-as-the-vector-database-grows/