一、核心框架与评分基准
基础基线:Simple RAG(仅向量检索 + LLM 生成),效果评分约30 分,适合快速上线但精度低。
优化目标:提升相关性、召回率、准确率,降低幻觉与 Token 成本,形成可演进系统。
组合原则:策略互补而非替代,如「层次化索引 + 重排序 + 反馈循环」可构建工业级鲁棒系统。
二、17 种策略全清单(分阶段)
第一阶段:文档分块(1-5)— 解决 “切得准、带上下文”
Simple RAG:标准向量检索 + LLM 生成;适用于 FAQ、短文档;工具:Hugging Face RAG;评分 30。
Semantic Chunking(语义切分):按语义(LLM / 句法树)分块,保证主题连贯;长文档(论文 / 报告)必备;检索相关性提升 5–8%;评分 20。
Context Enriched Retrieval(上下文增强):返回目标块 + 前后窗口;提升回答连贯度;适用于法规解读、长摘要;工具:Haystack 窗口检索;评分 60。
Contextual Chunk Headers(块标题增强):为块生成描述性标题并嵌入,双向量融合评分;适配结构化文档(手册 / 教材);检索相关度提升 3%;评分 50。
Document Augmentation(文档增强):为块生成检索问题,多视图(标题 / 摘要 / 正文)入库;召回率提升 6%;适用于智能客服;工具:ChunkRAG;评分 80。
第二阶段:检索与重排序(6-9)— 解决 “找得准、筛得精”
Query Transformation(查询改写):LLM 生成多等价问法再检索;提升低质量输入召回;工具:LangChain MultiQueryRetriever;评分 50。
Reranker(重排序):初检 TopK 后用 Cross-Encoder/BERT 二次打分;NDCG@10 提升 15%;适用于法律 / 合同检索;工具:Pinecone Reranker;评分 70。
RSE(Relevant Span Extraction,相关片段提取):定位精准句子而非整段;适配多跳推理、多文档融合;工具:Transformers cross-encoder;评分 80。
Contextual Compression(上下文压缩):LLM 剔除无关内容,保留关键句;提示长度减半、生成提速;工具:LangChain ContextualCompressionRetriever;评分 75。
第三阶段:后处理与反馈(10-17)— 解决 “用得好、持续优”
Feedback Loop(反馈闭环):收集用户点击 / 评分,在线更新检索权重;持续优化企业知识库;工具:LangSmith;评分 70。
Adaptive RAG(自适应检索):按查询特征动态选策略(是否重排序 / 多 Query);平均准确率提升 7%;工具:LangChain Adaptive Retriever;评分 86.2(综合最优)。
Self RAG(自我决策 RAG):模型判断是否需检索,跳过无需外部知识的查询;减少 20% 无用检索,节省资源;评分 60。
Knowledge Graph(知识图谱):构建实体三元组,支持图谱检索 / 路径推理;跨文档关联准确率提升 12%;适用于科研 / 专利检索;工具:Neo4j + 向量检索;评分 78。
Hierarchical Indices(层次化索引):粗→细多级索引,多轮检索兼顾广度与深度;适配大型知识库 / 法规库;工具:FAISS 分级索引;评分 84。
HyDE(Hypothetical Document Embedding):先生成假设答案,再反向检索真实材料;召回率提升 8%,适配长尾问题;评分 50。
Fusion(结果融合):向量 + 关键词检索多路召回,融合排序;兼顾语义匹配与精确命中;适用于金融舆情;工具:Elastic+Pinecone;评分 83。
CRAG(Corrective RAG,纠错式 RAG):增加纠错与质量评估,必要时切换信息源;FAQ 准确率提升 10%;适用于客服系统;评分 82。
三、工业级选型速查表(按目标)
| 业务目标 | 优先选择策略 |
|---|---|
| 快速上线、低成本 | Simple RAG、Semantic Chunking |
| 提升回答准确性 | Reranker、RSE、Context Enriched Retrieval |
| 提升召回率与覆盖度 | Query Transformation、Fusion、Document Augmentation |
| 优化成本 / 推理效率 | Self RAG、Contextual Compression |
| 结构化知识 / 分层检索 | Knowledge Graph、Hierarchical Indices |
| 持续迭代 / 用户适配 | Feedback Loop、Adaptive RAG |
| 容错性强 / 长尾问题 | CRAG、HyDE |
四、核心工程要点
分块是基础:语义切分 + 上下文增强是大多数场景的 “标配”,避免固定长度切分的语义断裂。
重排序是精度关键:初检召回后,必须用 Reranker 或 RSE 提升相关性,尤其在高精度场景(法律 / 医疗)。
自适应与闭环是规模化核心:Adaptive RAG 适配多业务,Feedback Loop 实现系统自进化。
混合检索提鲁棒性:Fusion(向量 + 关键词)兼顾 “语义相似” 与 “精确命中”,适合生产环境。
五、效果评分对比(GPT-4 打分,满分 10 分)
| 策略名称 | 评分 | 核心优势 | 典型短板 |
|---|---|---|---|
| Simple RAG | 3 | 实现快、成本低 | 语义断裂、信息丢失 |
| Semantic Chunking | 5 | 语义连贯、Chunk 逻辑完整 | 仍有上下文丢失风险 |
| Small-to-Big Retrieval | 8.5 | 检索精准 + 上下文完整平衡 | 需构建父子 Chunk 映射,工程稍复杂 |
| Context Enriched Retrieval | 6 | 缓解信息缺失、逻辑简单 | 依赖物理位置邻近,语义关联弱时无效 |
| Contextual Chunk Headers | 5 | 增强大局感知、提升 Embedding 理解 | 生成标题增加额外成本 |
| Document Augmentation | 8 | 匹配精度极高、弥补语义鸿沟 | 需预生成问题,冷启动成本高 |
| Query Transformation | 5 | 兼容多样提问、提升复杂任务召回 | 改写质量依赖 LLM,易引入偏差 |
| Reranker | 7 | 大幅提升相关性、消除语义噪声 | 增加计算资源消耗 |
| RSE (Relevant Segment Extraction) | 8 | 信息完整、上下文感强 | 处理复杂跨段信息时耗时稍长 |
| Contextual Compression | 7.5 | 减少 Token 浪费、降低背景干扰 | 压缩质量依赖提示词设计 |
| Feedback Loop | 7 | 系统自净化、用户偏好驱动 | 实现复杂度高,需数据闭环 |
| Self RAG | 6 | 减少无用检索、节省资源 | 自判断准确性依赖模型能力 |
| Knowledge Graph | 7.8 | 跨文档关联强、支持推理 | 图谱构建成本高(实体 + 关系抽取) |
| Hierarchical Indices | 8.4 | 兼顾检索广度与深度、效率高 | 多级索引设计复杂 |
| HyDE (Hypothetical Document Embedding) | 5 | 适配长尾问题、提升召回 | 假设答案偏离时检索失效 |
| Fusion | 8.3 | 兼顾语义匹配与精确命中 | 多源结果融合逻辑复杂 |
| CRAG (Corrective RAG) | 8.24 | 结合文档库与 Web 检索、解决知识盲区 | 需额外 Web 检索模块,架构复杂 |
六、场景适配性对比
| 场景类型 | 推荐策略组合 |
|---|---|
| 快速验证 / 毕设 | Simple RAG + Semantic Chunking |
| 企业知识库 | Hierarchical Indices + Reranker + Feedback Loop |
| 法律 / 医疗(高精度) | RSE + Reranker + Contextual Compression |
| 智能客服(高召回) | Document Augmentation + Fusion + CRAG |
| 科研 / 专利检索 | Knowledge Graph + RSE + Query Transformation |
| 交互式对话 | Self RAG + Query Transformation + Context Enriched Retrieval |
| 长尾问题场景 | HyDE + Fusion + Reranker |
七、核心逻辑对比
基础检索派:以 Simple RAG 为代表,依赖向量相似度,优势是简单直接,短板是语义理解弱。
语义增强派:以 Semantic Chunking、Document Augmentation 为代表,通过 LLM 介入提升语义关联,优势是召回准,短板是成本高。
重排序派:以 Reranker 为代表,通过二次打分筛选优质结果,优势是精度高,短板是耗资源。
自适应进化派:以 Feedback Loop、Adaptive RAG 为代表,通过用户反馈或动态策略优化,优势是持续迭代,短板是工程复杂。