banner
约 4,200 字
14 分钟

部分场景中可以替代 RAG 的技术

摘要

本文讨论长上下文、Agentic Retrieval 和 LLM Wiki 在部分场景中替代传统 RAG 的条件。核心结论是:它们并不是全面取代 RAG,而是在知识规模、更新频率、结构复杂度和任务链路不同的情况下,改变知识进入模型的方式。

部分场景中可以替代 RAG 的技术

写在前面

最近看到一个说法:长上下文、Agentic Retrieval 或 LLM Wiki 会替代 RAG。

这个说法只对了一半。它们确实可以在部分场景中减少传统 RAG 的必要性,但不是把 RAG 整体淘汰。

传统 RAG 解决的是一个很具体的问题:模型参数里没有足够新、足够私有、足够细的知识,因此需要在回答前从外部知识库检索证据,再把证据放进上下文。它的核心能力不是向量数据库,而是把外部知识带入模型。

所谓替代 RAG,本质上是替代这个链路中的某一部分:

被替代的部分

替代方式

典型技术

检索与拼接

直接把全文放入模型上下文

Long Context

固定检索策略

让模型自己规划搜索路径

Agentic Retrieval

查询时临时理解

在入库时提前编译知识结构

LLM Wiki / GraphRAG

单一向量召回

多索引、多层摘要、多跳图检索

RAPTOR / LightRAG / GraphRAG

因此,更准确的判断应该是:RAG 不会消失,但“固定切块 + 向量检索 + Top-k 拼接”的朴素 RAG 会越来越少单独使用。新的系统会根据任务选择长上下文、智能检索、结构化知识或混合方案。

部分场景中可以替代 RAG 的技术路线(图由AI辅助绘制)
部分场景中可以替代 RAG 的技术路线(图由AI辅助绘制)

一、先明确传统 RAG 的边界

传统 RAG 的流程很固定:用户提出问题,系统把问题向量化,在向量数据库中搜索相似片段,取 Top-k 文档块,再把这些文档块交给大模型生成答案。

这个流程在很多企业知识库中仍然有效。它成本低、架构成熟、可扩展,适合海量文档的常规问答。但它有几个根本问题。

第一,切块会破坏结构。合同条款、财报表格、论文方法、代码调用链经常跨页或跨段落出现,固定 chunk 容易把完整逻辑切碎。

第二,Top-k 召回不是理解。向量相似度只能说明文本表面或语义上相近,不代表这段文本能回答问题。

第三,检索策略是静态的。系统通常在运行前就决定了召回数量、索引类型、重排方式,模型本身很少参与检索决策。

第四,知识结构没有被维护。普通 RAG 更像把文档碎片堆进仓库,缺少页面、实体、关系、目录、版本、权限等长期知识资产。

因此,讨论替代 RAG时,不能简单问是否还需要向量库,而要问四个问题:

判断维度

关键问题

知识规模

全部上下文能否放进模型窗口

更新频率

知识是否高频变化

结构复杂度

是否需要实体、关系、层级和版本

任务复杂度

是否需要多步查询、跨系统验证和根因分析

这四个问题基本决定了技术选型。

RAG 替代技术选型矩阵(图由AI辅助绘制)
RAG 替代技术选型矩阵(图由AI辅助绘制)

二、Long Context:直接读全文

长上下文是最容易被理解为替代 RAG的技术。它的逻辑很直接:既然模型可以接收几十万甚至上百万 token,那就不做检索,直接把完整文档放进上下文,让模型自己读。

这条路线的推动来自模型能力的变化。OpenAI、Google、Anthropic 等头部厂商都在持续扩展上下文窗口。Google 从 Gemini 1.5 开始公开强调 100 万 token 级长上下文能力;OpenAI GPT-4.1 系列发布时强调 100 万 token 级上下文;Anthropic 也已经把 Claude Sonnet 4 的 100 万 token 上下文能力推向生产可用阶段。长上下文已经不是实验室概念,而是进入工程使用的能力。

但长上下文不是无限记忆。研究者在 Lost in the Middle 中指出,模型对长上下文中间位置的信息利用并不稳定,常出现开头和结尾信息更容易被利用、中间信息被忽略的问题。上下文窗口变大,不等于模型能均匀、可靠地使用所有 token。

适合替代 RAG 的场景

长上下文适合读一遍、单文件、不频繁更新的场景。

典型场景包括合同审阅、审计报告分析、单篇财报研读、长 PR Review、单个代码模块理解、产品手册问答。它们有一个共同点:文档规模可控,任务关注完整上下文,用户希望模型读全文,而不是只看检索片段。

在这些场景中,长上下文有明显优势。

优势

说明

架构简单

不需要单独维护向量库、切块策略和检索服务

语义完整

避免 chunk 切碎导致的上下文断裂

适合跨页推理

合同、代码、论文、表格引用经常依赖前后文

调试直接

错误通常来自模型理解,而不是检索链路

例如合同审阅,用户希望模型检查整份合同中的付款条款、违约责任、数据安全义务和终止条件。这类任务如果先切块检索,很可能漏掉分散在不同章节中的关联条款。直接把合同全文输入模型,反而更符合任务逻辑。

不适合替代 RAG 的场景

长上下文不适合海量知识库、高频更新知识库和低延迟交互场景。

如果企业有几十万份文档、代码仓库持续更新、日志实时变化,直接把全部知识塞进上下文不可行。即使模型窗口足够大,成本和延迟也会快速上升。更重要的是,模型仍然需要知道该读哪些内容,这时检索、过滤和权限控制仍然不可替代。

因此,长上下文更像是替代小规模静态知识库中的检索步骤,而不是替代企业级 RAG 系统。

三、Agentic Retrieval:让检索变成推理行为

Agentic Retrieval 的核心变化是:检索不再是固定流水线,而是由模型根据任务状态动态决定。

传统 RAG 是一次性流程:

纯文本
Query -> Retrieve -> Generate

Agentic Retrieval 是循环流程:

纯文本
Reason -> Act -> Observe -> Decide -> Repeat

这个思想可以追溯到 ReAct。ReAct 让模型在推理和行动之间交替:先思考下一步需要什么信息,再调用工具,观察结果,然后继续推理。OpenAI Agents SDK、Anthropic MCP、LangGraph 等框架的发展,也说明头部厂商和工程生态正在把工具调用、状态管理、记忆、追踪和安全执行作为 Agent 系统的基础设施。

Agentic Retrieval 推理循环(图由AI辅助绘制)
Agentic Retrieval 推理循环(图由AI辅助绘制)

它替代了 RAG 的哪一部分

Agentic Retrieval 替代的不是知识库,而是固定检索策略。

在传统 RAG 中,系统预先规定检索几个 chunk、用哪个索引、是否重排。模型只是读结果。Agentic Retrieval 中,模型可以决定:

决策点

说明

搜什么

把模糊问题改写成多个精确查询

去哪里搜

在向量库、数据库、日志、网页、代码仓库之间选择工具

何时继续搜

判断已有证据是否足够

如何处理冲突

对矛盾证据继续追问或换工具验证

何时停止

证据足够后生成结论

它更适合复杂问题,而不是简单 FAQ。

企业案例:退款率升高根因分析

假设用户问:

纯文本
为什么最近退款率升高?

普通 RAG 可能在知识库中检索“退款率”“退款规则”“客服流程”等文档,然后生成一个泛泛解释。但真正原因可能在日志、支付接口、版本发布记录和工单系统中。

Agentic Retrieval 的流程更接近真实排查。

纯文本
用户问题:为什么退款率最近升高?
1. Reason:退款率升高可能与支付失败、APP 新版本、客服策略有关。
2. Act:查询最近 7 天支付失败日志。
3. Observe:发现支付宝接口失败率异常上升。
4. Reason:需要确认是否由近期发布引起。
5. Act:查询支付系统发布记录。
6. Observe:发现新版本修改了回调处理逻辑。
7. Act:查询相关工单与错误码。
8. Decide:证据足够,输出根因与修复建议。

这个场景中,RAG 的问题不是检索不到文档,而是问题本身需要多步验证。Agentic Retrieval 更像调查过程,而不是搜索过程。

工程代价

Agentic Retrieval 也有明显代价。

第一,成本更高。每一步都可能调用模型和工具,token、API 和延迟都会增加。

第二,不确定性更高。模型可能选择错误工具、重复搜索、过早停止或陷入循环。

第三,需要更严格的运行时。企业系统必须设置最大步数、工具权限、审计日志、错误恢复、超时控制和结果验证。

因此,它适合“查多步、跨系统、找根因”的任务,不适合所有简单问答。简单政策问答仍然用普通 RAG 更合适。

四、LLM Wiki:把知识提前编译成结构

LLM Wiki 的思想是:不要等到用户提问时才临时切块、检索、拼接,而是在知识摄入阶段就把文档整理成模型可读、可导航、可维护的知识系统。

它不是一个单一工具,而是一种知识工程架构。核心组件包括页面化、双向链接、层级目录、实体关系、自动摘要、自动索引和语义导航。

LLM Wiki 三层架构(图由AI辅助绘制)
LLM Wiki 三层架构(图由AI辅助绘制)

它替代了 RAG 的哪一部分

LLM Wiki 替代的是把知识只当作碎片素材的方式。

传统 RAG 通常把文档切成 chunk,然后向量化入库。系统并不真正维护文档结构,也不理解实体之间的关系。LLM Wiki 则把知识看作一个持续演化的系统。

能力

普通 RAG

LLM Wiki

基本单位

Chunk

Page / Entity / Relation

结构关系

更新方式

新文档追加入库

增量编译与关系更新

检索方式

Top-k 相似度

页面导航、链接扩展、图检索、摘要定位

适合场景

常规问答

长期知识资产

页面化

页面化的目标是保留知识边界。不是把文档机械切成 500 字一个 chunk,而是构建 page object:

JSON
{
  "page_id": "refund_policy.travel",
  "title": "差旅报销规则",
  "summary": "说明差旅费用报销范围、审批流程和票据要求。",
  "content": "...",
  "links": ["invoice_policy", "finance_approval"],
  "entities": ["差旅报销", "发票", "财务审批"]
}

这类结构比裸 chunk 更适合长期维护,也更适合模型导航。

双向链接与实体关系

企业知识不是孤立文档。退款规则会关联财务审批,财务审批会关联发票制度,发票制度会关联税务政策。LLM Wiki 通过实体识别、链接生成和反向索引,把这些文档连成网络。

这也是 GraphRAG 的核心思想之一。Microsoft GraphRAG 通过实体和关系构建图结构,并在图上进行局部或全局检索,使系统可以回答普通向量检索不擅长的跨文档、全局总结和关系型问题。

自动摘要和多层索引

RAPTOR 提出了树状递归摘要的思路:把底层文本聚类并逐层摘要,查询时可以在不同层级检索。LightRAG 则强调轻量级图结构和向量检索结合,用低成本方式保留实体关系和全局关联。

这些方法说明一个趋势:未来知识系统不会只依赖单层向量索引,而会同时使用多种访问路径。

索引类型

作用

Vector

语义相似召回

BM25

精确关键词匹配

Entity

人名、产品、设备、接口等实体定位

Graph

多跳关系和关联扩展

Hierarchy

目录层级导航

Temporal

时间过滤和版本追踪

Permission

企业权限控制

适用场景

LLM Wiki 适合长期沉淀、强关联、持续迭代的知识资产。

典型场景包括代码仓库、API 文档、产品需求、项目交付手册、制度规范、会议纪要和客户项目知识。它们的共同特点是:不是只问一次,而是会长期维护;不是只有文本,而是有实体、关系、版本和权限;不是只要答案,而是要能追溯知识结构。

它不适合超实时数据,例如高频交易、IoT 实时流、系统实时日志。这些场景应该优先使用数据库、时序系统、日志系统或专门监控平台,再让 Agent 按需调用。

五、其他相关路线:不是替代,而是增强

除了长上下文、Agentic Retrieval 和 LLM Wiki,还有几类技术经常被放在替代 RAG的讨论中,但更准确地说,它们是 RAG 的增强。

GraphRAG

GraphRAG 用图结构补足向量检索的弱点。它适合全局性问题,例如“这个项目有哪些主要风险”“某个客户投诉背后的关联流程是什么”。普通 RAG 更擅长找局部证据,GraphRAG 更擅长跨文档关系和全局摘要。

RAPTOR

RAPTOR 用树状摘要解决长文档检索问题。底层是原始文本,上层是逐级摘要。查询可以命中具体片段,也可以命中高层摘要。它适合长文档、论文集合、报告集合和需要不同粒度理解的知识库。

LightRAG

LightRAG 试图用更轻量的图结构和向量检索结合,降低 GraphRAG 的工程成本。它的价值在于提醒我们:结构化知识不一定要上来就做重型知识图谱,轻量实体关系也能显著改善检索。

Fine-tuning

微调不能替代动态知识库。微调适合学习风格、格式、领域语言和稳定模式,不适合频繁更新的事实知识。企业制度、产品价格、项目进度、客户状态这类信息仍然需要外部知识系统。

Memory 和 Prompt Cache

记忆、上下文压缩和 Prompt Cache 可以降低重复输入成本,改善长任务体验。但它们不解决知识来源、权限、更新和引用问题,因此不能单独替代 RAG。

六、技术选型

可以用下面这张表做初步判断。

场景

推荐方案

原因

单份合同审阅

Long Context

需要完整阅读,文档规模可控

单篇财报研读

Long Context 或 Long Context + 局部检索

表格和跨页上下文重要

企业制度问答

RAG 或 LLM Wiki

文档较多,需要引用和权限

退款率升高根因分析

Agentic Retrieval

需要查日志、工单、版本、支付接口

客服复杂投诉

Agentic Retrieval + RAG

需要客户档案、历史对话和知识库

产品/项目知识资产

LLM Wiki

需要目录、链接、版本和长期维护

代码仓库理解

LLM Wiki + Agentic Retrieval

需要调用链、依赖关系和变更历史

海量文档通用问答

Classic RAG + rerank

成本和扩展性更可控

实时日志监控

专用日志系统 + Agent

不应把实时流数据塞进知识库

更简洁的判断是:

纯文本
读一遍、单文件、不怎么更新 -> Long Context
查多步、跨系统、找根因 -> Agentic Retrieval
要沉淀、强关联、长期维护 -> LLM Wiki
海量文档、低成本、常规问答 -> Classic RAG

七、小结

RAG 的本质不是向量数据库,而是外部知识接入机制。只要模型需要使用参数外知识,就仍然需要某种形式的 RAG。变化在于,外部知识不一定总是以chunk + vector + top-k的形式进入模型。

长上下文把检索前移为直接阅读,适合小规模、静态、完整性要求高的任务。

Agentic Retrieval 把检索变成行动,适合复杂、多步、跨系统任务。

LLM Wiki 把知识处理前移到摄入阶段,适合长期维护的企业知识资产。

从工程角度看,未来更常见的系统不会是单一路线,而是混合架构:小文档直接长上下文,大文档先 RAG,复杂问题走 Agentic Retrieval,长期知识资产逐步 Wiki 化,底层再结合向量、BM25、图谱、权限和时间索引。

因此,真正需要被淘汰的不是 RAG,而是没有边界设计、没有结构化知识、没有评估体系的朴素 RAG。

END