This commit is contained in:
@@ -6,81 +6,84 @@
|
||||
|
||||
### 技术栈
|
||||
|
||||
| 组件 | 技术选型 | 版本 | 说明 |
|
||||
|:-----|:---------|:-----|:-----|
|
||||
| **基础检索** | `Qdrant` | 1.17+ | HNSW 稠密向量检索 |
|
||||
| **混合检索** | `Qdrant` + `BM25` | 内置 | 稠密 + 稀疏向量融合 |
|
||||
| **查询改写** | `LangChain` | 内置 | `MultiQueryGenerator` 多路改写 |
|
||||
| **RRF 融合** | 自实现 | - | `reciprocal_rank_fusion` 倒数排名融合 |
|
||||
| **重排序** | `llama.cpp` | 本地服务 | OpenAI 兼容 Rerank API |
|
||||
| **编排框架** | `asyncio` | Python 3.10+ | 异步并行检索 |
|
||||
| 组件 | 技术选型 | 说明 |
|
||||
|:-----|:---------|:-----|
|
||||
| **基础检索** | `Qdrant` | HNSW 稠密向量检索 |
|
||||
| **混合检索** | `Qdrant` + `BM25` | 稠密 + 稀疏向量融合,Qdrant 原生 RRF |
|
||||
| **查询改写** | `LangChain` | `MultiQueryGenerator` 多路改写 |
|
||||
| **重排序** | `llama.cpp` | 本地服务,OpenAI 兼容 Rerank API |
|
||||
| **编排框架** | `asyncio` | 异步并行检索 |
|
||||
| **服务接入** | `model_services` | 统一获取嵌入、LLM、重排序服务 |
|
||||
|
||||
### 检索流水线
|
||||
|
||||
```
|
||||
┌─────────────────────────────────────────────────────────────┐
|
||||
│ 用户提问 │
|
||||
└──────────────────────┬──────────────────────────────────────┘
|
||||
│
|
||||
▼
|
||||
┌─────────────────────────────────────────────────────────────┐
|
||||
│ MultiQueryGenerator │
|
||||
│ 多路查询改写 (num_queries=3) │
|
||||
│ "如何申请项目资金?" → ["项目资金申请流程", "经费申请步骤"] │
|
||||
└──────────────────────┬──────────────────────────────────────┘
|
||||
│
|
||||
▼
|
||||
┌─────────────────────────────────────────────────────────────┐
|
||||
│ 并行检索 (asyncio.gather) │
|
||||
│ ┌──────────────┐ ┌──────────────┐ ┌──────────────┐ │
|
||||
│ │ 查询1 检索 │ │ 查询2 检索 │ │ 查询3 检索 │ │
|
||||
│ │ (k=20) │ │ (k=20) │ │ (k=20) │ │
|
||||
│ └──────────────┘ └──────────────┘ └──────────────┘ │
|
||||
└──────────────────────┬──────────────────────────────────────┘
|
||||
│
|
||||
▼
|
||||
┌─────────────────────────────────────────────────────────────┐
|
||||
│ reciprocal_rank_fusion (RRF) │
|
||||
│ RRF_score(d) = Σ 1/(k + rank_q(d)) (k=60) │
|
||||
│ 融合多路检索结果,去重排序 │
|
||||
└──────────────────────┬──────────────────────────────────────┘
|
||||
│
|
||||
▼
|
||||
┌─────────────────────────────────────────────────────────────┐
|
||||
│ LLaMaCPPReranker │
|
||||
│ 远程重排序 (bge-reranker-v2-m3) │
|
||||
│ 返回 Top-N (top_n=5) 最相关文档 │
|
||||
└──────────────────────┬──────────────────────────────────────┘
|
||||
│
|
||||
▼
|
||||
┌─────────────────────────────────────────────────────────────┐
|
||||
│ 返回增强上下文 │
|
||||
│ format_context() → 格式化输出 │
|
||||
└─────────────────────────────────────────────────────────────┘
|
||||
用户查询
|
||||
↓
|
||||
┌───────────────────┐
|
||||
│ MultiQueryGenerator │ (可选)
|
||||
│ 多路查询改写 │
|
||||
└─────────┬─────────┘
|
||||
↓
|
||||
┌───────────────────┐
|
||||
│ 并行检索 │
|
||||
│ (asyncio.gather) │
|
||||
└─────────┬─────────┘
|
||||
↓
|
||||
┌───────────────────┐
|
||||
│ Qdrant 混合检索 │
|
||||
│ (dense + sparse) │
|
||||
└─────────┬─────────┘
|
||||
↓
|
||||
┌───────────────────┐
|
||||
│ RRF 分数融合 │ (Qdrant 原生)
|
||||
└─────────┬─────────┘
|
||||
↓
|
||||
┌───────────────────┐
|
||||
│ 重排序 (可选) │
|
||||
└─────────┬─────────┘
|
||||
↓
|
||||
┌───────────────────┐
|
||||
│ 父文档获取 │
|
||||
└─────────┬─────────┘
|
||||
↓
|
||||
增强上下文
|
||||
```
|
||||
|
||||
### 技术特性
|
||||
|
||||
- ✅ **Qdrant 原生混合检索**:稠密向量 + BM25 稀疏向量,服务端 RRF 分数融合
|
||||
- ✅ **父子文档策略**:子块精准检索,父块提供完整上下文
|
||||
- ✅ **多路查询改写**:通过 LLM 将单一问题改写为多个不同角度的查询
|
||||
- ✅ **RRF 融合算法**:Reciprocal Rank Fusion,无需评分归一化的融合算法
|
||||
- ✅ **远程重排序**:使用 llama.cpp 服务的 OpenAI 兼容 Rerank API
|
||||
- ✅ **混合检索支持**:稠密向量 + BM25 稀疏向量混合检索
|
||||
- ✅ **异步并行检索**:多路查询并行执行,提升检索速度
|
||||
- ✅ **优雅降级**:重排序器不可用时自动降级到基础融合结果
|
||||
- ✅ **完全异步化**:检索、融合、重排序全链路 async / await
|
||||
- ✅ **统一服务接入**:所有模型服务通过 `model_services` 获取
|
||||
|
||||
## 📂 架构与文件结构
|
||||
|
||||
```
|
||||
app/rag/
|
||||
backend/app/rag/
|
||||
├── __init__.py
|
||||
├── retriever.py # Qdrant 基础检索与混合检索
|
||||
├── reranker.py # llama.cpp 远程重排序器
|
||||
├── query_transform.py # 多路查询改写生成器
|
||||
├── fusion.py # RRF 倒数排名融合算法
|
||||
├── pipeline.py # RAG 流水线编排
|
||||
└── tools.py # LangChain Tool 封装
|
||||
```
|
||||
├── retriever.py # Qdrant 混合检索器(含父子文档支持)
|
||||
├── rerank.py # llama.cpp 远程重排序器
|
||||
├── query_transform.py # 多路查询改写生成器
|
||||
├── fusion.py # RRF 融合算法(备用)
|
||||
├── pipeline.py # RAG 流水线编排
|
||||
├── tools.py # LangChain Tool 封装
|
||||
├── evaluate.py # 评估工具
|
||||
└── README.md # 本文档
|
||||
|
||||
backend/app/model_services/
|
||||
├── embedding_services.py # 嵌入服务
|
||||
├── chat_services.py # LLM 服务
|
||||
└── rerank_services.py # 重排序服务
|
||||
|
||||
backend/rag_core/
|
||||
├── vector_store.py # Qdrant 混合存储
|
||||
├── sparse_embedder.py # BM25 稀疏嵌入
|
||||
├── doc_store.py # PostgreSQL 文档存储
|
||||
└── ... # 其他核心组件
|
||||
```
|
||||
## 🎯 演进路线与算法详解 (Roadmap)
|
||||
|
||||
### Level 1: 基础向量搜索 (Basic Similarity Search)
|
||||
@@ -88,97 +91,39 @@ app/rag/
|
||||
- **核心算法**: 近似最近邻搜索 (ANN, 常用 HNSW 算法)。将用户问题转化为向量后,计算它与库中向量的余弦相似度 (Cosine Similarity),取距离最近的 K 个块。
|
||||
- **优缺点**: 速度极快。但只能捕捉"语义相似",如果用户搜索特定专有名词、编号、订单号,纯向量检索往往会失效(产生"幻觉"匹配)。
|
||||
- **实现指南**:
|
||||
- 使用 `rag_indexer.embedders.LlamaCppEmbedder` 作为嵌入模型
|
||||
- 使用 `app/rag/retriever.py` 中的 `create_base_retriever` 创建基础检索器
|
||||
- 配置 `search_kwargs={"k": 20}` 进行初步召回
|
||||
|
||||
```python
|
||||
from app.rag.retriever import create_base_retriever
|
||||
|
||||
retriever = create_base_retriever(
|
||||
collection_name="rag_documents",
|
||||
embeddings=embeddings,
|
||||
search_kwargs={"k": 20}
|
||||
)
|
||||
docs = retriever.invoke("什么是 RAG?")
|
||||
```
|
||||
- 使用 `model_services.embedding_services` 获取嵌入模型
|
||||
- 使用 `app.rag.retriever` 中的 `create_base_retriever` 创建基础检索器
|
||||
- 配置检索返回数量进行初步召回
|
||||
|
||||
### Level 2: 混合检索与重排序(Hybrid Search + Reranker)
|
||||
|
||||
混合检索旨在结合向量的"语义泛化"与关键词的"精确匹配",随后利用重排序模型过滤噪声。
|
||||
|
||||
**⚠️ 现状说明**:
|
||||
- `create_hybrid_retriever` 函数已实现框架,能检测 Qdrant 集合是否有稀疏向量配置
|
||||
- 目前 Qdrant 集合**未配置**稀疏向量字段,混合检索会优雅降级为纯稠密检索
|
||||
- 如果需要启用完整混合检索,需:
|
||||
1. 使用 BM25 计算稀疏向量
|
||||
2. 在 Qdrant 集合配置 sparse_vectors
|
||||
3. 更新索引器以同时存储稠密和稀疏向量
|
||||
**当前状态**:
|
||||
- 混合检索已完全实现,使用 Qdrant 原生双向量存储 + RRF 分数融合
|
||||
- Qdrant 集合已配置稀疏向量字段,支持 dense + sparse 同步检索
|
||||
- 重排序器使用 llama.cpp 服务的 OpenAI 兼容 Rerank API
|
||||
|
||||
**1. 基础召回(纯稠密检索)**
|
||||
**1. 混合检索(核心)**:
|
||||
- **核心原理**: 结合基于 HNSW 的 Dense Vector 相似度检索与基于 TF-IDF 的 BM25 稀疏检索 (Sparse Vector)
|
||||
- **实现指南**: 使用 `app.rag.retriever` 中的 `create_hybrid_retriever` 或 `create_parent_hybrid_retriever` 函数
|
||||
- **技术优势**: Qdrant 原生支持,无需客户端后处理,性能更优
|
||||
|
||||
- **核心原理**: 结合基于 HNSW 的 Dense Vector 相似度搜索与基于 TF-IDF 的 BM25 稀疏检索 (Sparse Vector)。
|
||||
- **实现指南**: 使用 `app/rag/retriever.py` 中的 `create_hybrid_retriever` 函数,配置 `dense_k=10` 和 `sparse_k=10`,总召回 20 条结果。
|
||||
|
||||
```python
|
||||
from app.rag.retriever import create_hybrid_retriever
|
||||
|
||||
retriever = create_hybrid_retriever(
|
||||
collection_name="rag_documents",
|
||||
embeddings=embeddings,
|
||||
dense_k=10,
|
||||
sparse_k=10,
|
||||
score_threshold=0.3
|
||||
)
|
||||
```
|
||||
|
||||
**2. 二次精排 (Cross-Encoder)**
|
||||
|
||||
- **核心原理**: 不同于双塔模型(分别算向量再求距离),交叉编码器将"用户问题 + 检索到的单例文档"拼接后整体输入 Transformer 模型,由模型直接输出 0~1 的相关性得分,精度极高。
|
||||
- **实现指南**:
|
||||
- 使用 `app/rag/reranker.py` 中的 `LLaMaCPPReranker` 类,加载 `bge-reranker-v2-m3` 模型
|
||||
- 设置 `top_n=5` 保留最相关的 5 条结果
|
||||
|
||||
```python
|
||||
from app.rag.reranker import LLaMaCPPReranker
|
||||
|
||||
reranker = LLaMaCPPReranker(
|
||||
base_url="http://127.0.0.1:8083",
|
||||
api_key="your-api-key",
|
||||
top_n=5
|
||||
)
|
||||
sorted_docs = reranker.compress_documents(documents, query)
|
||||
```
|
||||
**2. 二次精排 (Cross-Encoder)**:
|
||||
- **核心原理**: 不同于双塔模型(分别算向量再求距离),交叉编码器将"用户问题 + 检索到的单例文档"拼接后整体输入 Transformer 模型,由模型直接输出 0~1 的相关性得分,精度极高
|
||||
- **实现指南**: 使用 `app.rag.rerank` 中的 `LLaMaCPPReranker` 类,设置 `top_n` 保留最相关结果
|
||||
|
||||
### Level 3: RAG-Fusion (多路改写与倒数排名融合)
|
||||
|
||||
RAG-Fusion 通过大模型发散思维,将单一问题改写为多个相似问题,扩大搜索面,再利用数学统计算法合并结果。
|
||||
|
||||
**1. 多路查询改写**
|
||||
**1. 多路查询改写**:
|
||||
- **核心原理**: 克服用户初始提问词不达意或视角受限的问题
|
||||
- **实现指南**: 使用 `app.rag.query_transform` 中的 `MultiQueryGenerator` 类,配置 `num_queries` 生成不同角度的查询
|
||||
|
||||
- **核心原理**: 克服用户初始提问词不达意或视角受限的问题。
|
||||
- **实现指南**: 使用 `app/rag/query_transform.py` 中的 `MultiQueryGenerator` 类,配置 `num_queries=3` 生成 3 个不同角度的查询。
|
||||
|
||||
```python
|
||||
from app.rag.query_transform import MultiQueryGenerator
|
||||
|
||||
generator = MultiQueryGenerator(llm=llm, num_queries=3)
|
||||
queries = await generator.agenerate("如何申请项目资金?")
|
||||
# 返回:["如何申请项目资金?", "项目资金申请流程是什么?", "申请项目经费需要哪些步骤?"]
|
||||
```
|
||||
|
||||
**2. 倒数排名融合 (RRF)**
|
||||
|
||||
- **核心原理**: RRF (Reciprocal Rank Fusion) 是一种无需评分归一化的融合算法。公式为 `RRF_score(d) = Σ 1/(k + rank_q(d))`,有效避免某一极端检索结果主导全局。
|
||||
- **实现指南**: 使用 `app/rag/fusion.py` 中的 `reciprocal_rank_fusion` 函数,配置 `k=60` 实现倒数排名融合。
|
||||
|
||||
```python
|
||||
from app.rag.fusion import reciprocal_rank_fusion
|
||||
|
||||
# 多个查询的检索结果
|
||||
doc_lists = [result1, result2, result3]
|
||||
fused_docs = reciprocal_rank_fusion(doc_lists, k=60)
|
||||
```
|
||||
**2. 倒数排名融合 (RRF)**:
|
||||
- **核心原理**: RRF (Reciprocal Rank Fusion) 是一种无需评分归一化的融合算法。公式为 `RRF_score(d) = Σ 1/(k + rank_q(d))`,有效避免某一极端检索结果主导全局
|
||||
- **当前实现**: 使用 Qdrant 原生 FusionQuery 进行服务端 RRF 融合,性能更优
|
||||
|
||||
### Level 4: Agentic RAG / Self-RAG (智能体与自我反思)
|
||||
|
||||
@@ -203,25 +148,12 @@ fused_docs = reciprocal_rank_fusion(doc_lists, k=60)
|
||||
|
||||
### Level 5: GraphRAG 集成 (基于图和关系的 RAG)
|
||||
|
||||
- **核心原理**: 结合知识图谱的结构化关系和向量检索的语义相似度,解决跨文档复杂关系推理问题。
|
||||
- **核心原理**: 结合知识图谱的结构化关系和向量检索的语义相似度,解决跨文档复杂关系推理问题
|
||||
- **实现指南**:
|
||||
- 使用 `langchain_community.graphs` 模块构建知识图谱
|
||||
- 配置本地大模型(如 `Gemma-4-E4B`)用于实体关系抽取
|
||||
- 实现混合检索逻辑,结合向量相似度和图路径分析
|
||||
|
||||
```python
|
||||
from langchain_community.graphs import Neo4jGraph
|
||||
from langchain_experimental.graph_transformers import LLMGraphTransformer
|
||||
|
||||
# 实体关系抽取
|
||||
transformer = LLMGraphTransformer(llm=local_llm)
|
||||
graph_documents = transformer.convert_to_graph_documents(documents)
|
||||
|
||||
# 存储到图数据库
|
||||
graph = Neo4jGraph(url="bolt://localhost:7687")
|
||||
graph.add_graph_documents(graph_documents)
|
||||
```
|
||||
|
||||
## 🔧 核心组件详解
|
||||
|
||||
### 1. 检索器 (retriever.py)
|
||||
@@ -229,163 +161,104 @@ graph.add_graph_documents(graph_documents)
|
||||
提供基于 Qdrant 的向量检索能力。
|
||||
|
||||
**基础检索器**:
|
||||
```python
|
||||
from app.rag.retriever import create_base_retriever
|
||||
|
||||
retriever = create_base_retriever(
|
||||
collection_name="rag_documents",
|
||||
embeddings=embeddings,
|
||||
search_kwargs={"k": 20}
|
||||
)
|
||||
```
|
||||
- 功能:纯稠密向量检索
|
||||
- 配置:集合名称、检索数量
|
||||
|
||||
**混合检索器**:
|
||||
```python
|
||||
from app.rag.retriever import create_hybrid_retriever
|
||||
- 功能:稠密 + 稀疏向量混合检索,Qdrant 原生 RRF 融合
|
||||
- 配置:集合名称、检索数量、分数阈值(可选)
|
||||
|
||||
retriever = create_hybrid_retriever(
|
||||
collection_name="rag_documents",
|
||||
embeddings=embeddings,
|
||||
dense_k=10,
|
||||
sparse_k=10,
|
||||
score_threshold=0.3
|
||||
)
|
||||
```
|
||||
**父子文档混合检索器**:
|
||||
- 功能:子块检索 → 父块获取,提供完整上下文
|
||||
- 配置:集合名称、检索数量
|
||||
|
||||
### 2. 多路查询改写 (query_transform.py)
|
||||
|
||||
通过 LLM 将用户问题改写为多个不同版本,扩大搜索面。
|
||||
|
||||
```python
|
||||
from app.rag.query_transform import MultiQueryGenerator
|
||||
|
||||
generator = MultiQueryGenerator(llm=llm, num_queries=3)
|
||||
queries = await generator.agenerate("如何申请项目资金?")
|
||||
```
|
||||
**配置**:
|
||||
- LLM 服务:从 `model_services.chat_services` 获取
|
||||
- 查询数量:默认 3 个
|
||||
|
||||
### 3. RRF 融合算法 (fusion.py)
|
||||
|
||||
Reciprocal Rank Fusion 算法,公式:`RRF_score(d) = Σ 1/(k + rank_q(d))`
|
||||
|
||||
```python
|
||||
from app.rag.fusion import reciprocal_rank_fusion
|
||||
**当前状态**:
|
||||
- 主要使用 Qdrant 原生 FusionQuery 进行服务端融合
|
||||
- 本模块为备用实现,用于特殊场景
|
||||
|
||||
# 多个查询的检索结果
|
||||
doc_lists = [result1, result2, result3]
|
||||
fused_docs = reciprocal_rank_fusion(doc_lists, k=60)
|
||||
```
|
||||
|
||||
### 4. 重排序器 (reranker.py)
|
||||
### 4. 重排序器 (rerank.py)
|
||||
|
||||
使用 llama.cpp 服务的 OpenAI 兼容 Rerank API 对检索结果重排序。
|
||||
|
||||
```python
|
||||
from app.rag.reranker import LLaMaCPPReranker
|
||||
|
||||
reranker = LLaMaCPPReranker(
|
||||
base_url="http://127.0.0.1:8083",
|
||||
api_key="your-api-key",
|
||||
top_n=5
|
||||
)
|
||||
sorted_docs = reranker.compress_documents(documents, query)
|
||||
```
|
||||
**配置**:
|
||||
- 服务地址:从环境变量或配置获取
|
||||
- API Key:从环境变量或配置获取
|
||||
- Top N:返回最相关的 N 个结果
|
||||
|
||||
### 5. RAG 流水线 (pipeline.py)
|
||||
|
||||
组合上述组件的完整检索流水线。
|
||||
|
||||
```python
|
||||
from app.rag.pipeline import RAGPipeline
|
||||
**主要功能**:
|
||||
- 多路查询改写(可选)
|
||||
- 混合检索(支持父子文档)
|
||||
- 重排序(可选)
|
||||
- 上下文格式化
|
||||
|
||||
pipeline = RAGPipeline(
|
||||
retriever=retriever,
|
||||
llm=llm,
|
||||
num_queries=3,
|
||||
rerank_top_n=5,
|
||||
)
|
||||
|
||||
# 异步检索
|
||||
docs = await pipeline.aretrieve("如何申请项目资金?")
|
||||
|
||||
# 格式化上下文
|
||||
context = pipeline.format_context(docs)
|
||||
```
|
||||
**配置选项**:
|
||||
- 集合名称
|
||||
- LLM 服务
|
||||
- 是否使用多路改写
|
||||
- 是否使用重排序
|
||||
- 检索/重排序数量
|
||||
|
||||
## 🔄 与 Agent 系统集成
|
||||
|
||||
### 封装为 LangChain Tool
|
||||
|
||||
```python
|
||||
from langchain_core.tools import tool
|
||||
from app.rag.pipeline import RAGPipeline
|
||||
|
||||
@tool
|
||||
def search_knowledge_base(query: str) -> str:
|
||||
"""搜索知识库获取相关信息"""
|
||||
docs = pipeline.retrieve(query)
|
||||
return pipeline.format_context(docs)
|
||||
```
|
||||
- 创建工具函数,用于搜索知识库获取相关信息
|
||||
- 工具描述要清晰,说明功能和用途
|
||||
|
||||
### 绑定到 LangGraph
|
||||
|
||||
```python
|
||||
from app.main_graph.utils.main_graph_builder import build_react_main_graph
|
||||
|
||||
# 将 RAG 工具添加到工具列表
|
||||
tools = AVAILABLE_TOOLS + [search_knowledge_base]
|
||||
|
||||
# 构建图
|
||||
graph = build_react_main_graph(llm, tools).compile(checkpointer=checkpointer)
|
||||
```
|
||||
- 将 RAG 工具添加到 Agent 可用工具列表
|
||||
- 构建 LangGraph 图时传入工具列表
|
||||
- 配置检查点(可选)用于状态持久化
|
||||
|
||||
## ⚙️ 环境配置
|
||||
|
||||
| 变量名 | 说明 | 默认值 |
|
||||
|:-------|:-----|:-------|
|
||||
| `QDRANT_URL` | Qdrant 向量数据库地址 | `http://127.0.0.1:6333` |
|
||||
| `QDRANT_URL` | Qdrant 向量数据库地址 | `http://115.190.121.151:6333` |
|
||||
| `QDRANT_API_KEY` | Qdrant API 密钥 | - |
|
||||
| `LLAMACPP_RERANKER_URL` | llama.cpp 重排序服务地址 | `http://127.0.0.1:8083` |
|
||||
| `LLAMACPP_API_KEY` | llama.cpp API 密钥 | - |
|
||||
| `DB_HOST` | PostgreSQL 主机 | `115.190.121.151` |
|
||||
| `DB_PORT` | PostgreSQL 端口 | `5432` |
|
||||
| `DB_USER` | PostgreSQL 用户 | `postgres` |
|
||||
| `DB_PASSWORD` | PostgreSQL 密码 | `postgres` |
|
||||
| `DB_NAME` | PostgreSQL 数据库 | `rag_db` |
|
||||
| `LLAMACPP_EMBEDDING_URL` | llama.cpp 嵌入服务地址 | `http://127.0.0.1:18001` |
|
||||
| `LLAMACPP_RERANK_URL` | llama.cpp 重排序服务地址 | `http://127.0.0.1:18002` |
|
||||
| `LLAMACPP_CHAT_URL` | llama.cpp 聊天服务地址 | `http://127.0.0.1:18000` |
|
||||
| `LLAMACPP_API_KEY` | llama.cpp API 密钥 | `huang1998` |
|
||||
|
||||
## 🚀 快速开始
|
||||
|
||||
```python
|
||||
# 1. 初始化嵌入模型
|
||||
from rag_core.embedders import LlamaCppEmbedder
|
||||
embedder = LlamaCppEmbedder()
|
||||
embeddings = embedder.as_langchain_embeddings()
|
||||
|
||||
# 2. 创建检索器
|
||||
from app.rag.retriever import create_base_retriever
|
||||
retriever = create_base_retriever(
|
||||
collection_name="rag_documents",
|
||||
embeddings=embeddings,
|
||||
search_kwargs={"k": 20}
|
||||
)
|
||||
|
||||
# 3. 创建 RAG 流水线
|
||||
from app.rag.pipeline import RAGPipeline
|
||||
pipeline = RAGPipeline(
|
||||
retriever=retriever,
|
||||
llm=llm,
|
||||
num_queries=3,
|
||||
rerank_top_n=5,
|
||||
)
|
||||
|
||||
# 4. 执行检索
|
||||
docs = pipeline.retrieve("如何申请项目资金?")
|
||||
|
||||
# 5. 格式化上下文
|
||||
context = pipeline.format_context(docs)
|
||||
print(context)
|
||||
```
|
||||
**步骤概览**:
|
||||
1. 初始化模型服务:从 `model_services` 获取嵌入、LLM、重排序服务
|
||||
2. 创建检索器:选择 `create_base_retriever`、`create_hybrid_retriever` 或 `create_parent_hybrid_retriever`
|
||||
3. 创建 RAG 流水线:配置是否使用多路改写、是否使用重排序等
|
||||
4. 执行检索:调用 `aretrieve` 进行异步检索
|
||||
5. 格式化上下文:调用 `format_context` 整理为 LLM 可用格式
|
||||
|
||||
## 📊 检索策略对比
|
||||
|
||||
| 策略 | 优点 | 缺点 | 适用场景 |
|
||||
|:-----|:-----|:-----|:---------|
|
||||
| **基础向量检索** | 速度快,语义理解好 | 专有名词匹配差 | 通用问答 |
|
||||
| **混合检索** | 语义 + 关键词匹配 | 需要配置稀疏向量 | 专业术语查询 |
|
||||
| **混合检索** | 语义 + 关键词匹配 | - | 专业术语查询 |
|
||||
| **父子文档混合检索** | 检索精准 + 上下文完整 | - | 生产环境通用 |
|
||||
| **多路改写 + RRF** | 搜索面广,结果稳定 | 延迟略高 | 复杂问题 |
|
||||
| **重排序** | 精度高 | 依赖额外模型 | 最终精排 |
|
||||
|
||||
@@ -394,5 +267,6 @@ print(context)
|
||||
- **向量存储**:共享 Qdrant 集合,确保嵌入模型一致
|
||||
- **文档存储**:使用 PostgreSQL 存储父块,通过 UUID 映射
|
||||
- **集合名称**:默认使用 `rag_documents` 集合
|
||||
- **服务接入**:统一使用 `model_services` 获取模型服务
|
||||
|
||||
详见 [rag_indexer/README.md](../../rag_indexer/README.md)
|
||||
|
||||
Reference in New Issue
Block a user