HNSW 规模化：解决大规模数据集下的 RAG 召回率衰减问题

随着检索增强生成 (RAG) 从原型阶段走向生产环境，许多工程团队都会遇到一个令人困惑的现象：系统在处理 10,000 条文档时表现优异，但一旦数据库规模达到 1,000,000 条，准确率就会大幅下降。这通常不是 LLM（大语言模型）本身的问题，而是 HNSW 规模化 过程中的一个根本性挑战。当您使用 n1n.ai 构建高性能 AI 应用时，理解向量搜索的底层机制对于保持系统的竞争优势至关重要。

线性扩展的幻觉

分层小世界图 (HNSW) 是近似最近邻 (ANN) 搜索的行业标准。它通过创建一个多层图结构来实现亚线性的搜索时间，其中顶层是数据的粗略表示，而底层包含完整的数据集。然而，HNSW 规模化 会引入一种“召回率漂移”——这是一种无声的性能退化，即索引返回的最近邻不再是向量空间中真正的最近邻。

这种退化的发生是因为随着图密度的增加，搜索算法掉入“局部最优解”陷阱的可能性也随之增加。在小数据集中，通往最近邻的路径是清晰的。但在海量数据集中，图结构变成了一个复杂的迷宫，“小世界”属性开始失效。为了确保您的 LLM 能够从 n1n.ai 获取最相关的上下文，您必须解决这些架构上的瓶颈。

为什么召回率会下降：数学现实

HNSW 规模化 的效率依赖于两个核心参数：M（每个新元素创建的双向链接数）和 ef_construction（索引构建期间动态候选列表的大小）。

随着向量数量 N 的增加，固定的 M 值通常会变得不足。图的连通性并不会随着数据量的增加而线性扩展。如果 M 过低，图结构会变得“脆弱”，这意味着到达正确邻域的路径会变少。

搜索时间的权衡

在查询时，ef_search 参数控制搜索的深度。为了在数据库从 10 万增长到 1000 万个向量时保持相同的召回率，您的 ef_search 通常需要呈指数级增长，而不是线性增长。

数据集规模	达到 95% 召回率所需的 ef_search	延迟 (ms)
100,000	64	2.5
1,000,000	256	12.8
10,000,000	1024	45.2

如表所示，在 HNSW 规模化 过程中维持召回率需要牺牲延迟，而低延迟恰恰是 HNSW 最初吸引人的地方。这就是为什么许多使用 n1n.ai 满足 LLM 需求的开发者发现，随着用户群的扩大，他们的 RAG 管道开始出现延迟。

专家提示：对抗高维空间中的“枢纽性” (Hubness)

高维向量空间（例如 OpenAI 嵌入的 1536 维）存在“枢纽性”问题。某些向量会成为“枢纽”——它们在不成比例的大量点中充当最近邻。在 HNSW 规模化 场景下，这些枢纽就像重力井，将搜索算法吸引过去，从而偏离了真正但更小众的邻居。

为了对抗这一点，可以考虑实施 最大内积搜索 (MIPS) 归一化，或者如果您的嵌入不是单位归一化的，则切换到余弦相似度等距离度量。

实施指南：针对大数据集优化 HNSW

如果您观察到 RAG 性能下降，请遵循以下步骤重新调整您的 HNSW 规模化 实现。

1. 动态参数扩展

不要使用向量数据库（如 Pinecone, Milvus 或 Weaviate）提供的默认参数。对于超过 100 万个向量的数据集，请尝试以下起始值：

M: 32 到 64
ef_construction: 256 到 512

2. 重排序策略（银弹）

与其试图从 HNSW 中获取完美的 Top-5，不如使用较低的 ef_search 获取一个较大的集合（例如 Top-100）以保持低延迟。然后，使用 交叉编码重排序器 (Cross-Encoder Re-ranker) 筛选出最佳的 5 个结果。这种“检索 + 重排序”模式是处理 HNSW 规模化 最健壮的方法。

# 重排序管道示例
raw_results = vector_db.search(query_vector, limit=100, search_params={"ef": 128})
# 将这 100 个结果传递给重排序模型
final_results = reranker.predict([(query_text, doc.text) for doc in raw_results])
# 为 n1n.ai 的 LLM 上下文选择前 5 个

硬件与内存瓶颈

HNSW 规模化 是极其消耗内存的。为了实现高性能，图结构必须驻留在内存 (RAM) 中。对于 1000 万个 1536 维的向量，仅索引就需要大约 60GB 到 100GB 的内存。当内存压力过大时，操作系统会开始将数据交换到磁盘，您的 RAG 系统延迟将从毫秒级飙升至秒级。

为了缓解这种情况，可以使用 乘积量化 (PQ)。PQ 可以压缩向量，在保持可接受召回率的同时，将内存占用减少高达 90%。将 PQ 与 HNSW 规模化 结合使用，可以让您在更经济的硬件上处理海量数据集，而不会牺牲发送到 n1n.ai 的数据质量。

LLM 智能的作用

即使经过完美调优的索引，检索错误仍会发生。这时，LLM 的选择就变得至关重要。更“智能”的模型通常能够辨别检索到的上下文是否无关或矛盾。通过使用 n1n.ai API 聚合器，当检索置信度分值较低时，您可以动态地将 RAG 查询路由到性能最强的模型（如 GPT-4o 或 Claude 3.5 Sonnet）。

总结

维护 HNSW 规模化 并不是一项“一劳永逸”的任务。它需要对 Recall@K 和延迟进行持续监控。随着向量数据库的增长，“小世界”变成了“大世界”，您的搜索策略也必须随之进化。通过优化 HNSW 参数、实施重排序以及利用 n1n.ai 的高速 LLM 基础设施，您可以构建无论数据量多大都能保持敏锐的 RAG 系统。

Get a free API key at n1n.ai

参考来源：https://towardsdatascience.com/hnsw-at-scale-why-your-rag-system-gets-worse-as-the-vector-database-grows/