PageIndex推理式RAG：用树搜索替代向量检索|红海eHR

【导读】企业用RAG做制度、财报、法规等长文档问答时，常被“检索到的段落看似相关、实则答非所问”困扰：切片导致上下文断裂、返回结果难解释、专业文档命中率下降。开源项目PageIndex提出一条不同路径：不依赖向量数据库，不围绕embedding相似度做匹配，而是先为文档建立层级“智能目录”，再让LLM以推理式树搜索逐层定位内容，像人类专家那样从目录进入章节并收敛到目标页码。

一、传统RAG为何“越专业越难”：相似度检索的四类痛点

在多数RAG流水线中，典型做法是：将文档按chunk切分、计算embedding向量、写入Pinecone/Milvus等向量数据库，然后对用户query做向量相似度检索，取Top-K片段交给LLM生成答案。该路径在“短文本、语义相近”的场景往往够用，但遇到企业级长文档与强规范文本时，问题会集中暴露出来：

1）“文不对题”的命中
向量检索擅长找“语义相似”，但业务问答需要的是“任务相关”。例如制度问“如何申请账号”，真正关键是流程、责任人、时限、审批链，而不是包含“账号/申请”字样的任意段落。相似度不等于相关性，尤其在财报、法规、技术手册等文本里更明显。

2）长文档切片后的上下文丢失
“暴力切片分块”会把章节层级、前置定义、例外条款与流程依赖切散。即便命中某个chunk，也可能缺失“适用范围”“术语和定义”“职责与权限”等上位约束，导致回答不完整或误读。

3）可解释性不足：为什么返回这些段落？
向量检索返回的是相似度分值与片段集合，难以回答“检索路径是什么、为何选择该段、是否漏掉上位章节”。企业场景需要可审计、可追溯的问答链路，但向量Top-K本质偏黑箱。

4）专业文档性能下滑
财报（如SEC文件）、合规条款、行业标准往往具备强结构、强引用、强逻辑关系。仅靠embedding距离，很容易被“相似表达”牵引到不相关章节，命中率和稳定性随之下降。

这些痛点背后是同一个逻辑：传统向量检索主要在做“相似性匹配”，而真实问答更依赖“相关性推理”。PageIndex的切入点，正是把“推理”前置到检索阶段。

二、PageIndex怎么做：先建“智能目录”，再用LLM推理式树搜索

PageIndex将检索过程拆成两步：构建层级树结构与推理式树搜索。它的设计灵感借鉴了AlphaGo的思路：通过树搜索逐层缩小决策空间，而不是在全局做一次性匹配。

1）第一步：把PDF变成层级树状结构（“智能目录”）

系统会把PDF解析成带层级、页码范围、摘要等信息的树节点。节点既像目录，又比目录多了机器可用的语义信息与定位信息（start_index/end_index/summary等），例如：

{ "title": "账号与访问管理", "node_id": "0009", "start_index": 6, "end_index": 6, "summary": "本章节规定了账号申请、使用和访问控制的管理要求...", "nodes": [ { "title": "账号管理", "node_id": "0010", "nodes": [ { "title": "账号申请流程", "node_id": "0011" }, { "title": "新员工账号申请", "node_id": "0012" }, { "title": "权限变更申请", "node_id": "0013" } ] } ] }

这种结构化表示带来两个直接效果：

保留自然章节结构，避免切片把语义链条打断；
天然支持溯源，因为节点对应明确页码或范围，可回指原文页面。

2）第二步：检索不再“比距离”，而是“走路径”的推理式树搜索

当用户提问时，PageIndex不做向量Top-K，而是让LLM像专家查文档那样逐层判断：

先选择最相关的一级章节；
进入子章节继续缩小范围；
直到定位到能够直接回答问题的最小节点集合；
同时保留检索路径，形成可解释链路。

例如问题是“如何申请账号？”，LLM的推理会更像：
“账号申请 → 应先看《账号与访问管理》→ 进入《账号管理》→ 锁定《账号申请流程》《新员工账号申请》并参考上级概述节点”。

这种方法的关键不在于“召回更多相似段落”，而在于把检索变成一场可追溯的推理收敛过程。

3）支持Vision RAG：直接处理PDF页面图像

PageIndex还强调可支持Vision RAG：可直接处理PDF页面图像，无需OCR。这对图表、扫描件、版式复杂的制度或报告尤其关键：很多企业文档并非天然“可复制文本”，传统OCR不仅成本高，还可能引入错字影响检索与问答一致性。

三、企业制度文档实战：14页制度拆出63节点，回答可解释可回溯

在一个企业制度问答示例中，PageIndex对一份14页的《信息安全管理制度》生成树状结构，形成清晰的节点目录（共63个节点），其中包含“总则”“账号与访问管理”“数据安全管理”“网络安全管理”“安全事件管理”等典型制度模块。

结构示意如下（节选）：

文档: test.pdf
- [0000] 目录 (页码 1-5)
- [0001] 总则 (页码 5-5)
  - [0002] 目的
  - [0003] 适用范围
  - [0004] 术语和定义
  - [0005] 职责与权限
- [0009] 账号与访问管理 (页码 6-6)
  - [0010] 账号管理
    - [0011] 账号申请流程
      - [0012] 新员工账号申请
      - [0013] 权限变更申请
    - [0014] 账号使用规范
  - [0017] 访问控制
- ……

当用户提问“如何申请账号？”时，系统选择并返回的节点是：

[0011] 账号申请流程 (页码 6-6)
[0012] 新员工账号申请 (页码 6-6)
[0010] 账号管理 (页码 6-6)

最终答案能给出流程细节，并可展示“为什么是这些节点”的推理理由：上级节点提供概述与约束，叶子节点给出步骤与细则。对企业而言，这种结果意味着两点：

答案可审计：能说明依据来自哪些章节与页码；
便于迭代：若答错，可以回看是树结构构建问题还是推理选择问题，而不是只面对一串相似度分数。

四、准确率与取舍：98.7%背后的优势、成本与适用边界

1）指标表现：FinanceBench上的98.7%准确率

在金融领域基准测试FinanceBench上，基于PageIndex的Mafin 2.5系统实现了98.7%准确率。该结果常被视为“推理式检索在专业长文档上优于纯向量相似度方案”的例证：金融场景文本结构强、引用密、细节多，检索的“相关性推断”往往比“语义相近”更重要。

2）与传统向量RAG的对比差异

检索方式：向量相似度匹配 vs LLM推理式树搜索
文档处理：暴力切片分块 vs 保留自然章节结构
可解释性：黑箱、难追溯 vs 透明、可展示推理路径
专业文档表现：容易“文不对题” vs 更擅长精准定位

3）技术优势：不仅是“不要向量数据库”

PageIndex的“无需向量数据库”很直观：可减少Pinecone、Milvus等部署与维护负担，也减少为embedding、chunk size反复调参的时间。但更核心的价值在于：

相关性来自推理：检索阶段就开始做“该看哪里”的判断；
结果可溯源：定位到页码/章节，便于合规审查；
对结构化文档更友好：制度、手册、法规、财报都天然有层级结构。

4）必须正视的代价：Token与延迟

推理式树搜索通常意味着多轮LLM调用：

成本更高：Token消耗相对向量检索更大；
延迟更高：实时性要求极高的机器人场景未必合适；
依赖LLM能力：底层LLM推理能力不足会直接影响检索质量；
对文档结构有要求：结构越清晰效果越好，完全无结构内容可能不占优；超大规模文档（数百页以上）也会带来处理时间增长。

因此更合理的策略往往不是“彻底抛弃向量检索”，而是根据场景选择：

专业长文档、高准确率、强审计 → 推理式树搜索更合适；
海量短文本、低延迟、强成本约束 → 向量检索仍有优势；
也可能出现混合架构：先粗召回再树搜索精定位。

五、快速上手：安装、配置与运行命令

PageIndex给出了直接可跑的方式，典型流程包含安装依赖、配置API Key、生成树结构与本地检索验证：

git clone https://github.com/VectifyAI/PageIndex.git cd PageIndex pip3 install -r requirements.txt

创建 .env 文件：

CHATGPT_API_KEY=your_openai_key_here

运行示例：

# 生成文档树结构 python3 run_pageindex.py --pdf_path /path/to/your/document.pdf # 本地检索验证 python3 local_retrieval.py --query "你的问题"

结语：技术背后的管理思考

从“向量相似度”走向“推理式树搜索”，本质上是在把企业知识应用从“能搜到”升级到“搜得准、说得清、可追责”。对组织管理而言，这类变化会直接影响制度落地与执行效率：员工不再依赖口口相传或反复找人确认，而是通过可溯源的问答快速定位到章节、流程、责任人和时限；管理者也能基于检索路径判断制度是否写得清晰、是否存在冲突条款，从而推动制度体系的持续治理。与此同时，推理式RAG对岗位能力提出新要求——不只是会“写提示词”，还要理解文档结构化方法、知识库更新机制与数据权限边界，确保问答结果既准确又合规。正如红海云在探索新一代人力资源管理解决方案时所强调的，技术的终极价值在于赋能组织：把分散的制度、流程与经验沉淀为可检索、可解释、可审计的知识能力，才能真正提升人效与组织韧性。



HR数字化产品

国央企单位
State owned enterprise units

银行金融

高新科技

消费品

服饰行业

餐饮行业

能源矿业

制造行业

生物医药

PageIndex推理式RAG：用树搜索替代向量检索

一、传统RAG为何“越专业越难”：相似度检索的四类痛点