一种无需 LLM 裁判的几何法检测幻觉技术

想象一群正在飞行的鸟。这里没有领头者，也没有中央指挥部。每只鸟都只与邻居保持一致——匹配方向、调整速度，通过纯粹的局部协调来维持整体的连贯性。结果就是，全局的秩序从局部的一致性中自发涌现。现在，想象其中一只鸟飞得和其他鸟一样坚定，它的振翅非常有神，速度也完全匹配，但它的飞行方向却与整个鸟群垂直。孤立来看，这只鸟的表现是完美的；但在群体背景下，它就是一个异常值。这就是在不依赖昂贵的 LLM 裁判的情况下，检测 DeepSeek-V3 或 Claude 3.5 Sonnet 等模型幻觉的核心直觉：几何一致性法。

为什么我们需要摆脱 “LLM 裁判”？

在传统的架构中，开发者通常使用一个更强大的模型（如 GPT-4o）作为“裁判”来评估较小模型的输出是否包含事实错误。然而，这种方法存在三个致命缺陷：

成本递归：为了验证一个廉价模型的输出，你不得不支付昂贵的裁判模型费用。
高延迟：裁判模型通常需要处理长上下文，导致端到端延迟显著增加。如果你正在使用 n1n.ai 构建高性能应用，这种延迟是难以接受的。
偏见传递：裁判模型本身也存在幻觉，且往往倾向于认可与其风格相似的错误答案。

几何法通过分析模型输出分布的数学属性来解决这一问题。通过从 n1n.ai 提供的 API 接口多次采样，并将结果映射到向量空间，我们可以将“真理”识别为聚类中心，而将“幻觉”识别为空间中的孤立点。

核心理论：语义流形 (Semantic Manifolds)

当大语言模型生成文本时，它实际上是在高维概率空间中进行导航。对于一个有事实依据的查询，其“正确”的答案在理论上应该占据相似的语义区域。如果我们以较高的 Temperature（例如 0.7 或 0.8）对同一个问题进行 5 次采样，我们会得到一群答案：

一致性暗示真实性：如果模型对答案有信心且答案正确，那么这 5 个答案在语义上会非常接近，即使措辞不同。
不一致性暗示幻觉：如果模型在“瞎猜”（即幻觉），由于它是在低概率、高熵区域进行采样，这些答案在向量空间中会表现出巨大的发散性。

实现指南：构建几何幻觉检测器

我们可以利用 LangChain 框架和 n1n.ai 的高速 API 节点来实现这一流程。具体步骤包括：生成 N 个样本、向量化处理、计算质心距离。

第一步：多重采样生成

我们需要针对同一个 Prompt 生成多个不同的 Completion。使用 n1n.ai 可以确保这些并发请求以最低延迟完成。

import numpy as np
from sklearn.metrics.pairwise import cosine_similarity

# 通过 n1n.ai 获取采样结果的示例函数
def get_llm_samples(prompt, n=5):
    # 调用 n1n.ai 上的 DeepSeek-V3 模型
    results = []
    for i in range(n):
        response = call_n1n_api(prompt, temp=0.8)
        results.append(response)
    return results

第二步：语义嵌入与距离计算

将文本转化为向量。如果向量分布紧密，则模型输出的可信度高。

def detect_hallucination(embeddings):
    # 计算所有向量的平均值（质心）
    centroid = np.mean(embeddings, axis=0)

    # 计算每个样本到质心的余弦距离
    distances = [1 - cosine_similarity([v], [centroid])[0][0] for v in embeddings]

    # 计算距离的方差，方差越大，幻觉概率越高
    variance = np.var(distances)
    return variance

方案对比：LLM 裁判 vs. 几何一致性

特性	LLM 裁判 (Judge)	几何一致性法 (Geometric)
成本	极高 (双倍 Token 消耗)	中等 (N 次采样)
处理速度	较慢 (> 2s)	极快 (支持并发处理)
可解释性	自然语言解释	数学解释 (熵/方差)
主观偏见	高 (模型自我偏好)	低 (纯统计学方法)
适用场景	复杂逻辑推理评价	事实型 RAG 问答验证

进阶：语义熵 (Semantic Entropy) 的应用

为了进一步提高准确率，我们可以引入语义熵的概念。这意味着我们要将 N 个响应划分为不同的“意义簇”。如果所有响应都属于同一个意义簇，语义熵为 0。如果每个响应的意思都完全不同，语义熵则很高。这对于 OpenAI o3 这种推理模型在处理数学或代码任务时尤为有效。

当熵值超过预设阈值（如 > 0.5）时，系统可以自动标记该响应为“潜在幻觉”，并触发重新生成或人工介入。这种方法比单纯的 Token 概率分析更鲁棒，因为它关注的是含义而非具体的用词。

生产环境中的专业建议

温度系数 (Temperature) 校准：不要将温度设置得过高。0.7 通常是最佳平衡点，既能产生足够的差异性用于检测，又不至于让模型输出逻辑混乱。通过 n1n.ai 调节参数非常便捷。
Embedding 模型的选择：建议使用高质量的向量模型（如 text-embedding-3-large），以确保几何距离能精准反映语义上的细微差别。
并行化处理：利用 n1n.ai 的高并发能力，同时发起 N 个采样请求。在大多数情况下，这可以将总检测延迟控制在 500ms 以内。

总结

通过将 LLM 的输出视为几何空间中的点，我们可以摆脱昂贵且不可靠的“裁判”模式。这种“鸟群一致性”方法为衡量模型信心提供了一个坚实的统计学基础。无论你是使用 DeepSeek-V3 追求极致性价比，还是使用 Claude 3.5 Sonnet 处理高难度推理，引入几何幻觉检测机制都将显著提升 AI 智能体的可靠性。

在 n1n.ai 获取免费 API 密钥。

参考来源：https://towardsdatascience.com/the-red-bird/